~ubuntu-branches/ubuntu/trusty/hyperestraier/trusty-proposed

« back to all changes in this revision

Viewing changes to man/estcmd.1

  • Committer: Bazaar Package Importer
  • Author(s): Steve Langasek
  • Date: 2006-11-14 05:28:32 UTC
  • mfrom: (2.1.4 feisty)
  • Revision ID: james.westby@ubuntu.com-20061114052832-0lzqzcefn8mt4yqe
Tags: 1.4.9-1.1
* Non-maintainer upload.
* High-urgency upload for RC bugfix.
* Set HOME=$(CURDIR)/junkhome when building, otherwise the package build
  will incorrectly look for headers there -- and fail when the directory
  exists and is unreadable, as happens sometimes on sudo-using
  autobuilders!

Show diffs side-by-side

added added

removed removed

Lines of Context:
5
5
 
6
6
.SH SYNOPSIS
7
7
.PP
8
 
.B estcmd put [\-cl] db [file]
9
 
.br
 
8
.B estcmd create [\-tr] [\-apn|\-acc] [\-xs|\-xl|\-xh|\-xh2|\-xh3] [\-sv|\-si|\-sa] [\-attr name type] db
 
9
.PP
 
10
.B estcmd put [\-tr] [\-cl] [\-ws] [\-apn|\-acc] [\-xs|\-xl|\-xh||\-xh2|\-xh3] [\-sv|\-si|\-sa] db [file]
 
11
.PP
10
12
.B estcmd out [\-cl] [\-pc enc] db expr
11
 
.br
12
 
.B estcmd edit [\-cl] [\-pc enc] db expr name [value]
13
 
.br
14
 
.B estcmd get [\-pc enc] db expr [attr]
15
 
.br
16
 
.B estcmd list [\-lp] db
17
 
.br
18
 
.B estcmd uriid [\-pc enc] db expr
19
 
.br
 
13
.PP
 
14
.B estcmd edit [\-pc enc] db expr name [value]
 
15
.PP
 
16
.B estcmd get [\-nl|\-nb] [\-pidx path] [\-pc enc] db expr [attr]
 
17
.PP
 
18
.B estcmd list [\-nl|\-nb] [\-lp] db
 
19
.PP
 
20
.B estcmd uriid [\-nl|\-nb] [\-pidx path] [\-pc enc] db expr
 
21
.PP
20
22
.B estcmd meta db [name [value]]
21
 
.br
22
 
.B estcmd inform db
23
 
.br
 
23
.PP
 
24
.B estcmd inform [\-nl|\-nb] db
 
25
.PP
24
26
.B estcmd optimize [\-onp] [\-ond] db
25
 
.br
26
 
.B estcmd search [\-ic enc] [\-vu|\-va|\-vf|\-vs|\-vh|\-vx|\-dd] [\-kn num] [\-ec] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf] [\-hs] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-sim id] db [phrase]
27
 
.br
28
 
.B estcmd gather [\-cl] [\-no] [\-fe|\-ft|\-fh|\-fm] [\-fx sufs cmd] [\-fz] [\-fo] [\-rm sufs] [\-ic enc] [\-il lang] [\-bc] [\-pc enc] [\-px name] [\-apn] [\-sd] [\-cm] [\-cs num] db [file|dir]
29
 
.br
 
27
.PP
 
28
.B estcmd merge [\-cl] db target
 
29
.PP
 
30
.B estcmd repair [\-rst|\-rsh] db
 
31
.PP
 
32
.B estcmd search [\-nl|\-nb] [\-pidx path] [\-ic enc] [\-vu|\-va|\-vf|\-vs|\-vh|\-vx|\-dd] [\-sn wnum hnum anum] [\-kn num] [\-um] [\-ec rn] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf|\-sfr|\-sfu|\-sfi] [\-hs] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-aux num] [\-dis name] [\-sim id] db [phrase]
 
33
.PP
 
34
.B estcmd gather [\-tr] [\-cl] [\-ws] [\-no] [\-fe|\-ft|\-fh|\-fm] [\-fx sufs cmd] [\-fz] [\-fo] [\-rm sufs] [\-ic enc] [\-il lang] [\-bc] [\-lt num] [\-lf num] [\-pc enc] [\-px name] [\-aa name value] [\-apn|\-acc] [\-xs|\-xl|\-xh|\-xh2|\-xh3] [\-sv|\-si|\-sa] [\-ss name] [\-sd] [\-cm] [\-cs num] [\-ncm] [\-kn num] [\-um] db [file|dir]
 
35
.PP
30
36
.B estcmd purge [\-cl] [\-no] [\-fc] [\-pc enc] [\-attr expr] db [prefix]
31
 
.br
32
 
.B estcmd extkeys [\-no] [\-fc] [\-dfdb file] [\-ni] [\-kn num] [\-attr expr] db [prefix]
33
 
.br
34
 
.B estcmd words [\-dfdb file] db
35
 
.br
36
 
.B estcmd draft [\-ft|\-fh|\-fm] [\-ic enc] [\-il lang] [\-bc] [\-kn num] [file]
37
 
.br
38
 
.B estcmd break [\-ic enc] [\-il lang] [\-apn] [\-wt] [file]
39
 
.br
 
37
.PP
 
38
.B estcmd extkeys [\-no] [\-fc] [\-dfdb file] [\-ncm] [\-ni] [\-kn num] [\-um] [\-attr expr] db [prefix]
 
39
.PP
 
40
.B estcmd words [\-nl|\-nb] [\-dfdb file] [\-kw|\-kt] db
 
41
.PP
 
42
.B estcmd draft [\-ft|\-fh|\-fm] [\-ic enc] [\-il lang] [\-bc] [\-lt num] [\-kn num] [\-um] [file]
 
43
.PP
 
44
.B estcmd break [\-ic enc] [\-il lang] [\-apn|\-acc] [\-wt] [file]
 
45
.PP
40
46
.B estcmd iconv [\-ic enc] [\-il lang] [\-oc enc] [file]
41
 
.br
 
47
.PP
 
48
.B estcmd regex [\-inv] [\-repl str] expr [file]
 
49
.PP
 
50
.B estcmd scandir [\-tf|\-td] [\-pa|\-pu] [dir]
 
51
.PP
 
52
.B estcmd multi [\-db db] [\-nl|\-nb] [\-ic enc] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf|\-sfr|\-sfu|\-sfi] [\-hs] [\-hu] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-aux num] [\-dis name] [phrase]
 
53
.PP
42
54
.B estcmd randput [\-ren|\-rla|\-reu|\-ror|\-rjp|\-rch] [\-cs num] db dnum
43
 
.br
 
55
.PP
44
56
.B estcmd wicked db dnum
45
 
.br
 
57
.PP
46
58
.B estcmd regression db
47
 
.br
 
59
.PP
48
60
.B estcmd version
49
61
 
50
62
.SH DESCRIPTION
51
63
.PP
52
 
estcmd is an aggregation of sub commands.  The name of a sub command is specified by the first argument.  Other arguments are parsed according to each sub command.  The argument
 
64
.B estcmd
 
65
is an aggregation of sub commands.  The name of a sub command is specified by the first argument.  Other arguments are parsed according to each sub command.  The argument
53
66
.I db
54
67
specifies the path of an index.
55
68
.TP
56
 
.B estcmd put [\-cl] db [file]
 
69
.B estcmd create [\-tr] [\-apn|\-acc] [\-xs|\-xl|\-xh|\-xh2|\-xh3] [\-sv|\-si|\-sa] [\-attr name type] db
 
70
Create an index.
 
71
.br
 
72
If
 
73
.B \-tr
 
74
is specified, a new index is created regardless if one exists.
 
75
.br
 
76
If
 
77
.B \-apn
 
78
is specified, N\-gram analysis is performed against European text also.
 
79
.br
 
80
If
 
81
.B \-acc
 
82
is specified, character category analysis is performed instead of N-gram analysis.
 
83
.br
 
84
If
 
85
.B \-xs
 
86
is specified, the index is tuned to register less than 50000 documents.
 
87
.br
 
88
If
 
89
.B \-xl
 
90
is specified, the index is tuned to register more than 300000 documents.
 
91
.br
 
92
If
 
93
.B \-xh
 
94
is specified, the index is tuned to register more than 1000000 documents.
 
95
.br
 
96
If
 
97
.B \-xh2
 
98
is specified, the index is tuned to register more than 5000000 documents.
 
99
.br
 
100
If
 
101
.B \-xh3
 
102
is specified, the index is tuned to register more than 10000000 documents.
 
103
.br
 
104
If
 
105
.B \-sv
 
106
is specified, scores are stored as void.
 
107
.br
 
108
If
 
109
.B \-si
 
110
is specified, scores are stored as 32-bit integer.
 
111
.br
 
112
If
 
113
.B \-sa
 
114
is specified, scores are stored as-is and marked not to be tuned when search.
 
115
.br
 
116
.B \-attr
 
117
specifies an attribute index and its data type.  This option can be specified multiple times.
 
118
.TP
 
119
.B estcmd put [\-tr] [\-cl] [\-apn|\-acc] [\-xs|\-xl|\-xh|\-xh2|\-xh3] [\-sv|\-si|\-sa] db [file]
57
120
Register a document of document draft to an index.
 
121
.br
58
122
.I file
59
123
specifies a target file.  If it is omitted, the standard input is read.
 
124
.br
 
125
If
 
126
.B \-tr
 
127
is specified, a new index is created regardless if one exists.
 
128
.br
60
129
If
61
130
.B \-cl
62
131
is specified, regions of a overwritten document are cleaned up.
 
132
.br
 
133
If
 
134
.B \-ws
 
135
is specified, scores are weighted statically with score weighting attribute.
 
136
.br
 
137
If
 
138
.B \-apn
 
139
is specified, N\-gram analysis is performed against European text also.
 
140
.br
 
141
If
 
142
.B \-acc
 
143
is specified, character category analysis is performed instead of N-gram analysis.
 
144
.br
 
145
If
 
146
.B \-xs
 
147
is specified, the index is tuned to register less than 50000 documents.
 
148
.br
 
149
If
 
150
.B \-xl
 
151
is specified, the index is tuned to register more than 300000 documents.
 
152
.br
 
153
If
 
154
.B \-xh
 
155
is specified, the index is tuned to register more than 1000000 documents.
 
156
.br
 
157
If
 
158
.B \-xh2
 
159
is specified, the index is tuned to register more than 5000000 documents.
 
160
.br
 
161
If
 
162
.B \-xh3
 
163
is specified, the index is tuned to register more than 10000000 documents.
 
164
.br
 
165
If
 
166
.B \-sv
 
167
is specified, scores are stored as void.
 
168
.br
 
169
If
 
170
.B \-si
 
171
is specified, scores are stored as 32-bit integer.
 
172
.br
 
173
If
 
174
.B \-sa
 
175
is specified, scores are stored as-is and marked not to be tuned when search.
63
176
.TP
64
177
.B estcmd out [\-pc enc] [\-cl] db expr
65
178
Remove information of a document from an index.
 
179
.br
66
180
.I expr
67
181
specifies the ID number, the URI, or the local path of a document.
 
182
.br
68
183
If
69
184
.B \-cl
70
185
is specified, regions of the document are cleaned up.
 
186
.br
71
187
.B \-pc
72
188
specifies the encoding of file paths.  By default, it is ISO-8859-1.
73
189
.TP
74
190
.B estcmd edit [\-pc enc] db expr name [value]
75
191
Edit an attribute of a document in an index.
 
192
.br
76
193
.I expr
77
194
specifies the ID number, the URI, or the local path of a document.
 
195
.br
78
196
.I name
79
197
specifies the name of an attribute.
 
198
.br
80
199
.I value
81
200
specifies the value of the attribute.  If it is omitted, the attribute is removed.
 
201
.br
82
202
.B \-pc
83
203
specifies the encoding of the file path and the attribute value.  By default, it is ISO-8859-1.
84
204
.TP
85
 
.B estcmd get [\-pc enc] db expr [attr]
 
205
.B estcmd get [\-nl|\-nb] [\-pidx path] [\-pc enc] db expr [attr]
86
206
Output document draft of a document in an index.
 
207
.br
87
208
.I expr
88
209
specifies the ID number, the URI, or the local path of a document.
 
210
.br
89
211
If
90
212
.I attr
91
213
is specified, only the value of the attribute is output.
 
214
.br
 
215
If
 
216
.B \-nl
 
217
is specified, the index is opened without file locking.
 
218
.br
 
219
If
 
220
.B \-nb
 
221
is specified, file locking is performed without blocking.
 
222
.br
 
223
.B \-pidx
 
224
specifies the path of a pseudo index.  This option can be specified multiple times.
 
225
.br
92
226
.B \-pc
93
227
specifies the encoding of file paths.  By default, it is ISO-8859-1.
94
228
.TP
95
 
.B estcmd list [\-lp] db
 
229
.B estcmd list [\-nl|\-nb] [\-lp] db
96
230
Output a list of all document in an index.
 
231
.br
 
232
If
 
233
.B \-nl
 
234
is specified, the index is opened without file locking.
 
235
.br
 
236
If
 
237
.B \-nb
 
238
is specified, file locking is performed without blocking.
 
239
.br
97
240
If
98
241
.B \-lp
99
242
is specified, local path equivalent to URL of "file://" is output.
100
243
.TP
101
 
.B estcmd uriid [\-pc enc] db expr
 
244
.B estcmd uriid [\-nl|\-nb] [\-pidx path] [\-pc enc] db expr
102
245
Output the ID number of a document specified by URI.
 
246
.br
103
247
.I expr
104
248
specifies the URI or the local path of a document.
 
249
.br
 
250
If
 
251
.B \-nl
 
252
is specified, the index is opened without file locking.
 
253
.br
 
254
If
 
255
.B \-nb
 
256
is specified, file locking is performed without blocking.
 
257
.br
 
258
.B \-pidx
 
259
specifies the path of a pseudo index.  This option can be specified multiple times.
 
260
.br
105
261
.B \-pc
106
262
specifies the encoding of file paths.  By default, it is ISO-8859-1.
107
263
.TP
108
264
.B estcmd meta db [name [value]]
109
265
Handle meta data.
 
266
.br
110
267
.I name
111
268
specifies the name of a piece of meta data.  If it is omitted, a list of all names is output.
 
269
.br
112
270
.I value
113
271
specifies the value of the meta data to be recorded.  If it is omitted, the current value is output.  If it is an empty string, the meta data is removed.
114
272
.TP
115
 
.B estcmd inform db
 
273
.B estcmd inform [\-nl|\-nb] db
116
274
Output the number of documents and the number of unique words in an index.
 
275
.br
 
276
If
 
277
.B \-nl
 
278
is specified, the index is opened without file locking.
 
279
.br
 
280
If
 
281
.B \-nb
 
282
is specified, file locking is performed without blocking.
117
283
.TP
118
284
.B estcmd optimize [\-onp] [\-ond] db
119
285
Optimize an index and clean up dispensable regions.
 
286
.br
120
287
If
121
288
.B \-onp
122
289
is specified, it is omitted to clean up dispensable regions.
 
290
.br
123
291
If
124
292
.B \-ond
125
293
is specified, it is omitted to optimize the database files.
126
294
.TP
127
 
.B estcmd search [\-ic enc] [\-vu|\-va|\-vf|\-vs|\-vh|\-vx|\-dd] [\-kn num] [\-ec] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf] [\-hs] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-sim id] db [phrase]
 
295
.B estcmd merge [\-cl] db target
 
296
Merge another index.
 
297
.br
 
298
.I target
 
299
specifies the path of another index.
 
300
.br
 
301
If
 
302
.B \-cl
 
303
is specified, regions of overwritten documents are cleaned up.
 
304
.TP
 
305
.B estcmd repair [\-rst|\-rsh] db
 
306
Repair a broken index.
 
307
.br
 
308
If
 
309
.B \-rst
 
310
is specified, strict consistency check is performed.
 
311
.br
 
312
If
 
313
.B \-rsh
 
314
is specified, consistency check is omitted.
 
315
.TP
 
316
.B estcmd search [\-nl|\-nb] [\-pidx path] [\-ic enc] [\-vu|\-va|\-vf|\-vs|\-vh|\-vx|\-dd] [\-sn wnum hnum anum] [\-kn num] [\-um] [\-ec rn] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf|\-sfr|\-sfu|\-sfi] [\-hs] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-aux num] [\-dis name] [\-sim id] db [phrase]
128
317
Search an index for documents.
 
318
.br
129
319
.I phrase
130
320
specifies the search phrase.
 
321
.br
 
322
If
 
323
.B \-nl
 
324
is specified, the index is opened without file locking.
 
325
.br
 
326
If
 
327
.B \-nb
 
328
is specified, file locking is performed without blocking.
 
329
.br
 
330
.B \-pidx
 
331
specifies the path of a pseudo index.  This option can be specified multiple times.
 
332
.br
131
333
.B \-ic
132
334
specifies the input encoding.  By default, it is UTF\-8.
 
335
.br
133
336
If
134
337
.B \-vu
135
338
is specified, TSV of ID number and URI are output.
 
339
.br
136
340
If
137
341
.B \-va
138
342
is specified, multipart format including attributes is output.
 
343
.br
139
344
If
140
345
.B \-vf
141
346
is specified, multipart format including document draft is output.
 
347
.br
142
348
If
143
349
.B \-vs
144
350
is specified, multipart format including attributes and snippets is output.
 
351
.br
145
352
If
146
353
.B \-vh
147
354
is specified, human readable format including attributes and snippets is output.
 
355
.br
148
356
If
149
357
.B \-vx
150
358
is specified, XML including including attributes and snippets is output.
 
359
.br
151
360
If
152
361
.B \-dd
153
362
is specified, document draft data are dumped and saved into separated files.
 
363
.br
 
364
.B \-sn
 
365
specifies the number of whole width of snippet and width of strings picked up from the beginning of the text and width of strings picked up around each highlighted word.
 
366
.br
154
367
.B \-kn
155
 
specifies the number of keywords to be extracted.  By default, no keyword is extracted.
 
368
specifies the number of keywords to be extracted.  By default, keyword extraction is not performed.
 
369
.br
 
370
If
 
371
.B \-um
 
372
is specified, morphological analyzers are used for keyword extraction.
 
373
.br
156
374
.B \-ec
157
375
specifies lower limit of similarity eclipse.
 
376
.br
158
377
If
159
378
.B \-gs
160
379
is specified, every key of N\-gram is checked.  By default, it is alternately.
 
380
.br
161
381
If
162
382
.B \-gf
163
383
is specified, keys of N\-gram are checked every three.
 
384
.br
164
385
If
165
386
.B \-ga
166
387
is specified, keys of N\-gram are checked every four.
 
388
.br
167
389
If
168
390
.B \-cd
169
391
is specified, whether documents match the search phrase definitely is checked.
 
392
.br
170
393
If
171
394
.B \-ni
172
395
is specified, TF\-IDF tuning is omitted.
 
396
.br
173
397
If
174
398
.B \-sf
175
399
is specified, the phrase is treated as a simplified form.
 
400
.br
 
401
If
 
402
.B \-sfr
 
403
is specified, the phrase is treated as a rough form.
 
404
.br
 
405
If
 
406
.B \-sfu
 
407
is specified, the phrase is treated as a union form.
 
408
.br
 
409
If
 
410
.B \-sfi
 
411
is specified, the phrase is treated as an intersection form.
 
412
.br
176
413
If
177
414
.B \-hs
178
415
is specified, score information is output as an attribute.
 
416
.br
179
417
.B \-attr
180
418
specifies an attribute search condition.  This option can be specified multiple times.
 
419
.br
181
420
.B \-ord
182
421
specifies the order expression.  By default, it is descending by score.
 
422
.br
183
423
.B \-max
184
424
specifies the maximum number of shown documents.  Negative means unlimited.  By default, it is 10.
 
425
.br
185
426
.B \-sk
186
427
specifies the number of documents to be skipped.  By default, it is 0.
 
428
.br
 
429
.B \-aux
 
430
specifies permission to adopt result of the auxiliary index.  If it is not more than 0, the auxiliary index is not used.  By default, it is 32.
 
431
.br
 
432
.B -dis
 
433
specifies the name of the distinct attribute.
 
434
.br
187
435
.B \-sim
188
436
specifies the ID number of the seed document for similarity search.
189
437
.TP
190
 
.B estcmd gather [\-cl] [\-no] [\-fe|\-ft|\-fh|\-fm] [\-fx sufs cmd] [\-fz] [\-fo] [\-rm sufs] [\-ic enc] [\-il lang] [\-bc] [\-pc enc] [\-px name] [\-apn] [\-sd] [\-cm] [\-cs num] db [file|dir]
 
438
.B estcmd gather [\-tr] [\-cl] [\-ws] [\-no] [\-fe|\-ft|\-fh|\-fm] [\-fx sufs cmd] [\-fz] [\-fo] [\-rm sufs] [\-ic enc] [\-il lang] [\-bc] [\-lt num] [\-lf num] [\-pc enc] [\-px name] [\-aa name value] [\-apn|\-acc] [\-xs|\-xl|\-xh|\-xh2|\-xh3] [\-sv|\-si|\-sa] [\-ss name] [\-sd] [\-cm] [\-cs num] [\-ncm] [\-kn num] [\-um] db [file|dir]
191
439
Scan the local file system and register documents into an index.
 
440
.br
192
441
If the third argument is the name of a file, a list of paths of target documents are read from it.  If it is "\-", the standard input is specified.
 
442
.br
193
443
If the third argument is the name of a directory.  All files under the directory are treated as target documents.
 
444
.br
 
445
If
 
446
.B \-tr
 
447
is specified, a new index is created regardless if one exists.
 
448
.br
194
449
If
195
450
.B \-cl
196
451
is specified, regions of overwritten documents are cleaned up.
 
452
.br
 
453
If
 
454
.B \-ws
 
455
is specified, scores are weighted statically with score weighting attribute.
 
456
.br
197
457
If
198
458
.B \-no
199
459
is specified, operations are printed but not executed actually.
 
460
.br
200
461
If
201
462
.B \-fe
202
463
is specified, target files are treated as document draft.  By default, the format is detected by the suffix of each document.
 
464
.br
203
465
If
204
466
.B \-ft
205
467
is specified, target files are treated as plain text.
 
468
.br
206
469
If
207
470
.B \-fh
208
471
is specified, target files are treated as HTML.
 
472
.br
209
473
If
210
474
.B \-fm
211
475
is specified, target files are treated as MIME.
 
476
.br
212
477
If
213
478
.B \-fx
214
 
is specified, target files with the specified suffixes are processed by the specified outer command.  If the command is leaded by "T@", the output of the command is treated as plain text.  If the command is leaded by "H@", the output of the command is treated as HTML.  If the command is leaded by "M@", the output of the command is treated as MIME.  Else, the output is treated as document draft.  This option can be specified multiple times.
 
479
is specified, target files with the specified suffixes are processed by the specified outer command.  "*" matches any file.  If the command is leaded by "T@", the output of the command is treated as plain text.  If the command is leaded by "H@", the output of the command is treated as HTML.  If the command is leaded by "M@", the output of the command is treated as MIME.  Else, the output is treated as document draft.  This option can be specified multiple times.
 
480
.br
215
481
If
216
482
.B \-fz
217
 
is specified, documents which do not corresponding to the condition of \-fx are ignored.
 
483
is specified, documents which do not corresponding to the condition of
 
484
.B \-fx
 
485
are ignored.
 
486
.br
218
487
If
219
488
.B \-fo
220
489
is specified, target files are not read.  It is useful for efficient process of the outer command.
 
490
.br
221
491
If
222
492
.B \-rm
223
493
is specified, target files with the specified suffixes are removed.  "*" matches any file.  This option can be specified multiple times.
 
494
.br
224
495
.B \-ic
225
496
specifies the input encoding.  By default, it is detected automatically.
 
497
.br
226
498
.B \-il
227
499
specifies the preferred input language.  By default, English is preferred.
 
500
.br
228
501
If
229
502
.B \-bc
230
503
is specified, binary files are detected and ignored.
 
504
.br
 
505
.B \-lt
 
506
specifies the text size limitation by kilo bytes.  By default, it is 128KB.  If it is negative, the size is unlimited.
 
507
.br
 
508
.B \-lf
 
509
specifies the file size limitation by mega bytes.  By default, it is 32MB.  If it is negative, the size is unlimited.
 
510
.br
231
511
.B \-pc
232
512
specifies the encoding of file paths.  By default, it is ISO\-8859\-1.
 
513
.br
233
514
.B \-px
234
515
specifies the name of an attribute read from the list of paths.  As the list of paths can be in TSV format, the first field is treated as the path of a target document, the second field and the followers are definitions of attribute values.
235
516
.B \-px
236
517
specifies the name of each values of the second field and the followers.  This option can be specified multiple times.
 
518
.br
 
519
.B \-aa
 
520
specifies the name and the value of an additional attribute.  This option can be specified multiple times.
 
521
.br
237
522
If
238
523
.B \-apn
239
524
is specified, N\-gram analysis is performed against European text also.
 
525
.br
 
526
If
 
527
.B \-acc
 
528
is specified, character category analysis is performed instead of N-gram analysis.
 
529
.br
 
530
If
 
531
.B \-xs
 
532
is specified, the index is tuned to register less than 50000 documents.
 
533
.br
 
534
If
 
535
.B \-xl
 
536
is specified, the index is tuned to register more than 300000 documents.
 
537
.br
 
538
If
 
539
.B \-xh
 
540
is specified, the index is tuned to register more than 1000000 documents.
 
541
.br
 
542
If
 
543
.B \-xh2
 
544
is specified, the index is tuned to register more than 5000000 documents.
 
545
.br
 
546
If
 
547
.B \-xh3
 
548
is specified, the index is tuned to register more than 10000000 documents.
 
549
.br
 
550
If
 
551
.B \-sv
 
552
is specified, scores are stored as void.
 
553
.br
 
554
If
 
555
.B \-si
 
556
is specified, scores are stored as 32-bit integer.
 
557
.br
 
558
If
 
559
.B \-sa
 
560
is specified, scores are stored as-is and marked not to be tuned when search.
 
561
.br
 
562
.B -ss
 
563
specifies the name of an attribute for substitute score.
 
564
.br
240
565
If
241
566
.B \-sd
242
567
is specified, the modification date of each file is recorded as an attribute.
 
568
.br
243
569
If
244
570
.B \-cm
245
571
is specified, documents whose modification date has not changed are ignored.
 
572
.br
246
573
.B \-cs
247
 
specifies the size of cache memory by mega bytes.  By default, it is 64Mb.
 
574
specifies the size of cache memory by mega bytes.  By default, it is 64MB.
 
575
.br
 
576
If
 
577
.B -ncm
 
578
is specified, checking availability of the virtual memory is omitted.
 
579
.br
 
580
.B \-kn
 
581
specifies the number of keywords to be extracted.  By default, keyword extraction is not performed.
 
582
.br
 
583
If
 
584
.B \-um
 
585
is specified, morphological analyzers are used for keyword extraction.
248
586
.TP
249
 
.B estcmd purge [\-cl] [\-no] [\-fc] [\-ec enc] [\-attr expr] db [prefix]
 
587
.B estcmd purge [\-cl] [\-no] [\-fc] [\-pc enc] [\-attr expr] db [prefix]
250
588
Purge information of documents which do not exist on the file system.
 
589
.br
251
590
If
252
591
.I prefix
253
592
is specified, only documents whose URIs are begins with it.  It can be specified by the local path of a directory.
 
593
.br
254
594
If
255
595
.B \-cl
256
596
is specified, regions of the deleted documents are cleaned up.
 
597
.br
257
598
If
258
599
.B \-no
259
600
is specified, operations are printed but not executed actually.
 
601
.br
260
602
If
261
603
.B \-fc
262
604
is specified, information of all target documents are deleted.
263
 
.B -pc
 
605
.br
 
606
.B \-pc
264
607
specifies the encoding of file paths.  By default, it is ISO-8859-1.
 
608
.br
265
609
.B \-attr
266
610
specifies an attribute search condition.  This option can be specified multiple times.
267
611
.TP
268
 
.B estcmd extkeys [\-no] [\-fc] [\-dfdb file] [\-ni] [\-kn num] [\-attr expr] db [prefix]
 
612
.B estcmd extkeys [\-no] [\-fc] [\-dfdb file] [\-ncm] [\-ni] [\-kn num] [\-um] [\-attr expr] db [prefix]
269
613
Create a database of keywords extracted from documents.
 
614
.br
270
615
If
271
616
.I prefix
272
617
is specified, only documents whose URIs are begins with it.
 
618
.br
273
619
If
274
620
.B \-no
275
621
is specified, operations are printed but not executed actually.
 
622
.br
276
623
If
277
624
.B \-fc
278
625
is specified, all target documents are processed whichever they have existing records or not.
 
626
.br
279
627
.B \-dfdb
280
628
specifies an outher database of document frequency.  By default, document frequency is calculated dynamically according to the index.
 
629
.br
 
630
If
 
631
.B -ncm
 
632
is specified, checking availability of the virtual memory is omitted.
 
633
.br
281
634
If
282
635
.B \-ni
283
636
is specified, TF\-IDF tuning is omitted.
 
637
.br
284
638
.B \-kn
285
 
specifies the number of keywords to be extracted.
 
639
specifies the number of keywords to be extracted.  By default, it is 32.
 
640
.br
 
641
If
 
642
.B \-um
 
643
is specified, morphological analyzers are used for keyword extraction.
 
644
.br
286
645
.B \-attr
287
646
specifies an attribute search condition.  This option can be specified multiple times.
288
647
.TP
289
 
.B estcmd words [\-dfdb file] db
 
648
.B estcmd words [\-nl|\-nb] [\-dfdb file] [\-kw|\-kt] db
290
649
Output a list of all unique words and each record size which is treated as docuemnt frequency.
 
650
.br
 
651
If
 
652
.B \-nl
 
653
is specified, the index is opened without file locking.
 
654
.br
 
655
If
 
656
.B \-nb
 
657
is specified, file locking is performed without blocking.
 
658
.br
291
659
.B \-dfdb
292
660
specifies an outer database where the result is stored.  By default, the result is output to the standard output as TSV.  If the outer database already exists, the value of each record is incremented.
 
661
.br
 
662
If
 
663
.B \-kw
 
664
is specified, keywords and numbers of corresponding documents are output.
 
665
.br
 
666
If
 
667
.B \-kt
 
668
is specified, keywords and their related terms are output.
293
669
.TP
294
 
.B estcmd draft [\-ft|\-fh|\-fm] [\-ic enc] [\-il lang] [\-bc] [\-kn num] [file]
 
670
.B estcmd draft [\-ft|\-fh|\-fm] [\-ic enc] [\-il lang] [\-bc] [\-lt num] [\-kn num] [\-um] [file]
295
671
For test and debug.
296
672
.TP
297
 
.B estcmd break [\-ic enc] [\-il lang] [\-apn] [\-wt] [file]
 
673
.B estcmd break [\-ic enc] [\-il lang] [\-apn|\-acc] [\-wt] [file]
298
674
For test and debug.
299
675
.TP
300
676
.B estcmd iconv [\-ic enc] [\-il lang] [\-oc enc] [file]
301
677
For test and debug.
302
678
.TP
 
679
.B estcmd regex [\-inv] [\-repl str] expr [file]
 
680
For test and debug.
 
681
.TP
 
682
.B estcmd scandir [\-tf|\-td] [\-pa|\-pu] [dir]
 
683
For test and debug.
 
684
.TP
 
685
.B estcmd multi [\-db db] [\-nl|\-nb] [\-ic enc] [\-gs|\-gf|\-ga] [\-cd] [\-ni] [\-sf|\-sfr|\-sfu|\-sfi] [\-hs] [\-hu] [\-attr expr] [\-ord expr] [\-max num] [\-sk num] [\-aux num] [\-dis name] [phrase]
 
686
For test and debug.
 
687
.TP
303
688
.B estcmd randput [\-ren|\-rla|\-reu|\-ror|\-rjp|\-rch] [\-cs num] db dnum
304
689
For test and debug.
305
690
.TP
314
699
.PP
315
700
All sub commands return 0 if the operation is success, else return 1.  As for put, out, gather, purge, randput, wicked, and regression, they finish with closing the database when they catch the signal 1 (SIGHUP), 2 (SIGINT), 3 (SIGQUIT), 13 (SIGPIPE), or 15 (SIGTERM).
316
701
.PP
317
 
The encoding name specified by \-ic option should be such name registered to IETF as UTF\-8, ISO\-8859\-1, and so on.  The language name specified by \-il option should be one of "en" (English), "ja" (Japanese, "zh" (Chinese), "ko" (Korean).
 
702
The data type of attribute indexes specified by
 
703
.B \-attr
 
704
option of
 
705
.B create
 
706
sub command should be "seq" for sequencial type, "str" for string type, or "num" for number type.
 
707
.PP
 
708
Each pseudo index specified by
 
709
.B \-pidx
 
710
option of
 
711
.B search
 
712
sub command and so on is a directory containing files of document draft.  If you search a main index with pseudo indexes, meta search of the main index and pseudo indexes is performed.
 
713
.PP
 
714
The encoding name specified by
 
715
.B \-ic
 
716
option should be such name registered to IETF as UTF\-8, ISO\-8859\-1, and so on.  The language name specified by
 
717
.B \-il
 
718
option should be one of "en" (English), "ja" (Japanese, "zh" (Chinese), "ko" (Korean).
318
719
.PP
319
720
The outer command specified by \-fx option of gather receives the path of the target document by the first argument and the path for output by the second argument.  The original path of the target document is given as the value of the environment variable `ESTORIGFILE'.
320
721
.PP
323
724
.SH SEE ALSO
324
725
.PP
325
726
.BR estconfig (1),
 
727
.BR estmaster (1),
326
728
.BR estcall (1),
327
 
.BR estmaster (1),
328
 
.BR estraier (3)
 
729
.BR estwaver (1),
 
730
.BR estraier (3),
 
731
.BR estnode (3)
329
732
.PP
330
733
Please see
331
734
.B http://hyperestraier.sourceforge.net/uguide-en.html