~ubuntu-branches/ubuntu/utopic/speech-tools/utopic

« back to all changes in this revision

Viewing changes to doc/man/sig2fv_man.dox.body

  • Committer: Package Import Robot
  • Author(s): Samuel Thibault, Samuel Thibault, Sergio Oller
  • Date: 2014-04-20 02:44:41 UTC
  • Revision ID: package-import@ubuntu.com-20140420024441-9vqkmx9m4gqjqyzr
Tags: 1:2.1~release-7
[ Samuel Thibault ]
* Team upload.
* rules: Remove config/config on clean.
* Bump Standards-Version to 3.9.5 (no changes).
* patches/doc-doc.diff: Fix build when libestools is not installed yet.
* rules: Do not install refman.pdf, it does not build.

[ Sergio Oller ]
* EST_Tokenstream: Add support to read from istream to reduce
  Festival HTS disk input/output usage.
* Add several methods to EST_WaveFile and EST_Wave to write waves
  by parts (header and data separately) in order improve text2wave
  performance in festival package on long texts.
* rules: dh_auto_clean must depend on dh_auto_configure to clean safely.
* Check fread worked when loading files: (Closes: #715728, #716618,
  #716578, #716193, #716464)
* Build -dbg packages.
* Build speech-tools-doc package.
* Allow "-pc LONGEST" in ch_wave. (LP: #723854)

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/**
 
2
 
 
3
@page sig2fv_manual sig2fv
 
4
@brief *Generate signal processing coefficients from waveforms*
 
5
@tableofcontents
 
6
 
 
7
@section synopsis Synopsis
 
8
 
 
9
@SYNOPSIS@
 
10
 
 
11
`sig2fv` is used to create signal processing feature vector analysis on speech
 
12
waveforms.
 
13
The following types of analysis are provided:
 
14
 
 
15
  - Linear prediction (LPC)
 
16
  - Cepstrum coding from lpc coefficients
 
17
  - Mel scale cepstrum coding via fbank
 
18
  - Mel scale log filterbank analysis
 
19
  - Line spectral frequencies
 
20
  - Linear prediction reflection coefficients
 
21
  - Root mean square energy
 
22
  - Power
 
23
  - fundamental frequency (pitch)
 
24
  - calculation of delta and acceleration coefficients of all of the above
 
25
 
 
26
The -coefs option is used to specify a list of the names of what sort
 
27
of basic processing is required, and -delta and -acc are used for
 
28
delta and acceleration coefficients respectively.
 
29
 
 
30
 
 
31
@section options Options
 
32
 
 
33
@OPTIONS@
 
34
 
 
35
@section sig2fv-examples Examples
 
36
 
 
37
Fixed frame basic linear prediction:
 
38
 
 
39
To produce a set of linear prediction coefficients at every 10ms, using
 
40
pre-emphasis and saving in EST format:
 
41
 
 
42
    $ sig2fv kdt_010.wav -o kdt_010.lpc -coefs "lpc" -otype est -shift 0.01 -preemph 0.5
 
43
 
 
44
**Pitch Synchronous linear prediction**:
 
45
The following used the set of pitchmarks in kdt_010.pm as the centres
 
46
of the analysis windows.
 
47
 
 
48
    $ sig2fv kdt_010.wav -pm kdt_010.pm -o kdt_010.lpc -coefs "lpc" -otype est -shift 0.01 -preemph 0.5
 
49
 
 
50
F0, Linear prediction and cepstral coefficients:
 
51
 
 
52
    $ sig2fv kdt_010.wav -o kdt_010.lpc -coefs "f0 lpc cep" -otype est -shift 0.01
 
53
 
 
54
Note that pitchtracking can also be done with the
 
55
`pda` program. Both use the same underlying
 
56
technique, but the pda program offers much finer control over the
 
57
pitch track specific processing parameters.
 
58
 
 
59
Energy, Linear Prediction and Cepstral coefficients, with a 10ms frame shift
 
60
during analysis but a 5ms frame shift in the output file:
 
61
 
 
62
    $ sig2fv kdt_010.wav -o kdt_010.lpc -coefs "f0 lpc cep" -otype est -S 0.005
 
63
      -shift 0.01
 
64
 
 
65
Delta  and acc coefficients can be calculated even if their base form is not 
 
66
required. This produces normal energy coefficients and cepstral delta coefficients:
 
67
 
 
68
    $ sig2fv ../kdt_010.wav -o kdt_010.lpc -coefs "energy" -delta "cep" -otype est
 
69
 
 
70
Mel-scaled cepstra, Delta and acc coefficients, as is common in speech 
 
71
recognition:
 
72
 
 
73
    $ sig2fv ../kdt_010.wav -o kdt_010.lpc -coefs "melcep" -delta "melcep" -acc "melcep" -otype est -preemph 0.96
 
74
 
 
75
*/