~ubuntu-branches/ubuntu/trusty/pylucene/trusty

« back to all changes in this revision

Viewing changes to lucene-java-2.3.1/contrib/benchmark/README.enwiki

  • Committer: Package Import Robot
  • Author(s): Dmitry Nezhevenko
  • Date: 2012-04-23 16:43:55 UTC
  • mfrom: (1.1.1)
  • Revision ID: package-import@ubuntu.com-20120423164355-grqtepnwtecdjfk2
Tags: 3.5.0-1
* New maintainer (closes: 670179)
* New upstream release
* Switch to dpkg-source 3.0 (quilt) format
* Switch to machine-readable debian/copyright
* Bump debian/compat to 8, drop debian/pycompat
* Switch from cdbs to dh
* Add watch file
* Build for all supported versions of python2 (closes: 581198, 632240)
* Rename binary package to python-lucene (closes: 581197)
* Add -dbg package

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
Support exists for downloading, parsing, and loading the English
2
 
version of wikipedia (enwiki).
3
 
 
4
 
The build file can automatically try to download the most current
5
 
enwiki dataset (pages-articles.xml.bz2) from the "latest" directory,
6
 
http://download.wikimedia.org/enwiki/latest/. However, this file
7
 
doesn't always exist, depending on where wikipedia is in the dump
8
 
process and whether prior dumps have succeeded. If this file doesn't
9
 
exist, you can sometimes find an older or in progress version by
10
 
looking in the dated directories under
11
 
http://download.wikimedia.org/enwiki/. For example, as of this
12
 
writing, there is a page file in
13
 
http://download.wikimedia.org/enwiki/20070402/. You can download this
14
 
file manually and put it in temp. Note that the file you download will
15
 
probably have the date in the name, e.g.,
16
 
http://download.wikimedia.org/enwiki/20070402/enwiki-20070402-pages-articles.xml.bz2. When
17
 
you put it in temp, rename it to enwiki-latest-pages-articles.xml.bz2.
18
 
 
19
 
After that, ant enwiki should process the data set and run a load
20
 
test. Ant targets get-enwiki, expand-enwiki, and extract-enwiki can
21
 
also be used to download, decompress, and extract (to individual files
22
 
in work/enwiki) the dataset, respectively.