~eda-qa/dhlib/main

« back to all changes in this revision

Viewing changes to restricted/wordlib/howto_distrib.txt

  • Committer: edA-qa mort-ora-y
  • Date: 2010-02-16 05:36:32 UTC
  • Revision ID: eda-qa@disemia.com-20100216053632-60lt7fndfi3fgblw
first

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
How the english distributions were produced.
 
2
 
 
3
Where 50.txt is all english common words from SCOWL <= 50
 
4
charstats 50.txt > words.txt
 
5
 
 
6
Then hand-edited words.txt to get all single letters and necessary
 
7
doubles (those where the single doesn't appear much more than
 
8
the double)
 
9
 
 
10
A double example:
 
11
        q:952
 
12
        qu:951
 
13
 
 
14
1. Strip all really low counts (below lowest single letter)
 
15
        x:896
 
16
        
 
17
2. Remove doubles where sum of individuals is higher than double.
 
18
The logic here is that the natural occurence of the individual items
 
19
is enough to cover the doubles.  
 
20
**NOTE**: Preserve the "Doubles" however!
 
21
 
 
22
3. Keep doubles, strip isolated singles (makes some words impossible,
 
23
but *very* few).
 
24
        remove q
 
25
 
 
26
4. Now you have raw distributions, convert as desired to rates.
 
27
-convert to fixed string of all available letters
 
 
b'\\ No newline at end of file'