~snowball-yiddish-dev/snowball-yiddish/trunk

« back to all changes in this revision

Viewing changes to pystemmer/docs/quickstart.txt

  • Committer: richard
  • Date: 2011-08-09 15:48:33 UTC
  • Revision ID: svn-v4:633ccae0-01f4-0310-8c99-d3591da6f01f:trunk:547
* *: Patch from Peter Bouda, with some small tweaks, to support
  python 3.X.  Tested with python 3.2rc3
* Incompatibility: in python 2.X, algorithms() now returns unicode
  strings, instead of byte strings.
* Update to use latest libstemmer.
* Bump version number to 1.2.0

Show diffs side-by-side

added added

removed removed

Lines of Context:
9
9
 
10
10
Just for show, we'll display a list of the available stemming algorithms:
11
11
 
12
 
>>> print Stemmer.algorithms()
13
 
['danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish', 'turkish']
 
12
>>> print(Stemmer.algorithms())
 
13
[u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'hungarian', u'italian', u'norwegian', u'porter', u'portuguese', u'romanian', u'russian', u'spanish', u'swedish', u'turkish']
14
14
 
15
15
Now, we'll get an instance of the english stemming algorithm:
16
16
 
18
18
 
19
19
Stem a single word:
20
20
 
21
 
>>> print stemmer.stemWord('cycling')
 
21
>>> print(stemmer.stemWord('cycling'))
22
22
cycl
23
23
 
24
24
Stem a list of words:
25
25
 
26
 
>>> print stemmer.stemWords(['cycling', 'cyclist'])
 
26
>>> print(stemmer.stemWords(['cycling', 'cyclist']))
27
27
['cycl', 'cyclist']
28
28
 
29
29
Strings which are supplied are assumed to be UTF-8 encoded.
30
30
We can use unicode input, too:
31
31
 
32
 
>>> print stemmer.stemWords(['cycling', u'cyclist'])
 
32
>>> print(stemmer.stemWords(['cycling', u'cyclist']))
33
33
['cycl', u'cyclist']
34
34
 
35
35
Each instance of the stemming algorithms uses a cache to speed up processing of
36
36
common words.  By default, the cache holds 10000 words, but this may be
37
37
modified.  The cache may be disabled entirely by setting the cache size to 0:
38
38
 
39
 
>>> print stemmer.maxCacheSize
 
39
>>> print(stemmer.maxCacheSize)
40
40
10000
41
41
 
42
42
>>> stemmer.maxCacheSize = 1000
43
43
 
44
 
>>> print stemmer.maxCacheSize
 
44
>>> print(stemmer.maxCacheSize)
45
45
1000