~ubuntu-branches/ubuntu/maverick/speech-tools/maverick

« back to all changes in this revision

Viewing changes to doc/estwagon.sgml

  • Committer: Bazaar Package Importer
  • Author(s): Kartik Mistry, Kumar Appaiah, Kartik Mistry
  • Date: 2007-11-19 17:39:39 UTC
  • mfrom: (1.1.2 upstream)
  • Revision ID: james.westby@ubuntu.com-20071119173939-l5zuh2waxmrel31x
Tags: 1:1.2.96~beta-1
[Kumar Appaiah]
* Long awaited new upstream version (Closes: #437682)
* debian/patches:
  + Split all patches, and use quilt for patch management
  + Use latest config.guess, config.sub
* Minor manpage description fix
* debian/rules:
  + Fix old autoconf files, using autotools-dev
  + Find versions using debian/get_versions.sh, instead of hard coding

[Kartik Mistry]
* Added debian/watch file from Kumar
* debian/control:
  + Added homepage entry
  + Added Kumar Appaiah as co-maintainer list
  + Added XS-Dm-Upload-Allowed: yes to allow Debian-Maintainer upload
* debian/copyright: moved copyright out of license section
* debian/manpage.1: fixed lintian warning
* debian/rules: includes base_class/*.cc which is badly needed for
  festival compilation

Show diffs side-by-side

added added

removed removed

Lines of Context:
15
15
best described in <cite>breiman84</cite> and has become a common basic
16
16
method for building statistical models from simple feature data.
17
17
CART is powerful because it can deal with incomplete data, multiple
18
 
types of features (floats, unumerated sets) both in input features and
 
18
types of features (floats, enumerated sets) both in input features and
19
19
predicted features, and the trees it produces often contain rules
20
20
which are humanly readable.
21
21
</para><para>
98
98
Wagon has to automatically form questions about each feature in the
99
99
data set.  
100
100
</para><para>
101
 
For descrete features questions are build for each member of the set,
 
101
For discrete features questions are build for each member of the set,
102
102
e.g. if feature n has value x.  Our implementation does not currently
103
103
support more complex questions which could achieve better results
104
104
(though at the expense of training time).  Questions about features
118
118
For continuous features Wagon tries to find a partition of
119
119
the range of the values that best optimizes the average
120
120
impurity of the partitions.  This is currently done by linearly
121
 
spliting the range into a predefined subparts (10 by default)
 
121
splitting the range into a predefined subparts (10 by default)
122
122
and testing each split.  This again isn't optimal but does
123
123
offer reasonably accuracy without require vast amounts of
124
124
computation.
199
199
to this build.
200
200
</para><para>
201
201
Stepwise tests each success tree against the specified test set, (balance,
202
 
held out and stop options are repsected for each build).  As this
 
202
held out and stop options are respected for each build).  As this
203
203
is using the test set which optimizing the tree, it is not valid
204
204
to view the specified test set as a genuine test set.  Another
205
205
externally held test set should be used to test the accuracy of
273
273
list of possible values (e.g. phone names)</para></listitem>
274
274
<listitem><para><command>string</command> for features with an open
275
275
class of discrete values (e.g. words)</para></listitem>
 
276
<listitem><para><command>vectors</command> like floats but as vectors
 
277
of floats, (e.g. MFCC data)</para></listitem>
276
278
</itemizedlist>
277
279
</para><para>
278
280
The data description consists of a parenthesized list of feature
317
319
description file.  If the type (first toke after the name) is
318
320
<command>ignore</command> the feature will be ignored in the model
319
321
building process.  You may also specified features to ignore at tree
320
 
building time but it is often convinient to explicitly ignore
 
322
building time but it is often convenient to explicitly ignore
321
323
feature(s) in the description file.
322
324
</para><para>
323
325
For open categorial features the token <command>_other_</command>