~ubuntu-branches/ubuntu/trusty/swish-e/trusty

« back to all changes in this revision

Viewing changes to man/SWISH-CONFIG.1

  • Committer: Bazaar Package Importer
  • Author(s): Ludovic Drolez
  • Date: 2008-09-25 21:52:31 UTC
  • mfrom: (4.1.4 intrepid)
  • Revision ID: james.westby@ubuntu.com-20080925215231-vk46pq42o533syg2
Tags: 2.4.5-5
swish.cgi was not working. Fixed with a 1 char patch. Closes: #500154

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
.\" Automatically generated by Pod::Man v1.37, Pod::Parser v1.14
 
1
.\" Automatically generated by Pod::Man v1.37, Pod::Parser v1.3
2
2
.\"
3
3
.\" Standard preamble:
4
4
.\" ========================================================================
129
129
.\" ========================================================================
130
130
.\"
131
131
.IX Title "SWISH-CONFIG 1"
132
 
.TH SWISH-CONFIG 1 "2004-10-26" "2.5.2" "SWISH-E Documentation"
 
132
.TH SWISH-CONFIG 1 "2006-10-20" "2.5.5" "SWISH-E Documentation"
133
133
.SH "NAME"
134
134
SWISH\-CONFIG \- Configuration File Directives
135
 
.SH "Swish-e CONFIGURATION FILE"
136
 
.IX Header "Swish-e CONFIGURATION FILE"
 
135
.SH "OVERVIEW"
 
136
.IX Header "OVERVIEW"
 
137
This document lists the available configuration directives available in
 
138
Swish\-e.
 
139
.SH "CONFIGURATION FILE"
 
140
.IX Header "CONFIGURATION FILE"
137
141
What files Swish-e indexes and how they are indexed, and where the index
138
142
is written can be controlled by a configuration file.
139
143
.PP
171
175
If you need to include a quote character in the value either use a
172
176
backslash to escape it, or enclose it in quotes of the other type.
173
177
.PP
174
 
For example, under unix you can use quotes to include white space in a
175
 
single parameter.  Here, to protect against path names (%p) that might
176
 
have white space embedded use single quotes (this also protects against
177
 
shell expansion or metacharacters):
178
 
.PP
179
 
.Vb 3
180
 
\&    FileFilter .foo foofilter "'%p'"  <- parameter passed through the shell in single quotes
181
 
\&    FileFilter .foo foofilter '"%p"'  <- windows uses double-quotes
182
 
\&    FileFilter .foo foofilter '\e'%p\e''<- silly example
183
 
.Ve
184
 
.PP
185
178
Backslashes also have special meaning in regular expressions.
186
179
.PP
187
180
.Vb 1
252
245
.Sh "Alphabetical Listing of Directives"
253
246
.IX Subsection "Alphabetical Listing of Directives"
254
247
.IP "\(bu" 4
255
 
\&\f(CW\*(C`AbsoluteLinks\*(C'\fR [yes|NO]
256
 
.IP "\(bu" 4
257
 
\&\f(CW\*(C`BeginCharacters\*(C'\fR *string of characters*
258
 
.IP "\(bu" 4
259
 
\&\f(CW\*(C`BumpPositionCounterCharacters\*(C'\fR *string*
260
 
.IP "\(bu" 4
261
 
\&\f(CW\*(C`Buzzwords\*(C'\fR [*list of buzzwords*|File: path]
262
 
.IP "\(bu" 4
263
 
\&\f(CW\*(C`ConvertHTMLEntities\*(C'\fR [YES|no]
264
 
.IP "\(bu" 4
265
 
\&\f(CW\*(C`DefaultContents\*(C'\fR [TXT|HTML|XML|TXT2|HTML2|XML2|TXT*|HTML*|XML*]
266
 
.IP "\(bu" 4
267
 
\&\f(CW\*(C`Delay\*(C'\fR *seconds*
268
 
.IP "\(bu" 4
269
 
\&\f(CW\*(C`DontBumpPositionOnEndTags\*(C'\fR *list of names*
270
 
.IP "\(bu" 4
271
 
\&\f(CW\*(C`DontBumpPositionOnStartTags\*(C'\fR *list of names*
272
 
.IP "\(bu" 4
273
 
\&\f(CW\*(C`EnableAltSearchSyntax\*(C'\fR  [yes|NO]
274
 
.IP "\(bu" 4
275
 
\&\f(CW\*(C`EndCharacters\*(C'\fR *string of characters*
276
 
.IP "\(bu" 4
277
 
\&\f(CW\*(C`EquivalentServer\*(C'\fR *server alias*
278
 
.IP "\(bu" 4
279
 
\&\f(CW\*(C`ExtractPath\*(C'\fR *metaname* [replace|remove|prepend|append|regex]
280
 
.IP "\(bu" 4
281
 
\&\f(CW\*(C`FileFilter\*(C'\fR *suffix* *program* [options]
282
 
.IP "\(bu" 4
283
 
\&\f(CW\*(C`FileFilterMatch\*(C'\fR *program* *options* *regex* [*regex* ...]
284
 
.IP "\(bu" 4
285
 
\&\f(CW\*(C`FileInfoCompression\*(C'\fR [yes|NO]
286
 
.IP "\(bu" 4
287
 
\&\f(CW\*(C`FileMatch\*(C'\fR [contains|is|regex] *regular expression*
288
 
.IP "\(bu" 4
289
 
\&\f(CW\*(C`FileRules\*(C'\fR [contains|is|regex] *regular expression*
290
 
.IP "\(bu" 4
291
 
\&\f(CW\*(C`FuzzyIndexingMode\*(C'\fR [NONE|Stemming|Soundex|Metaphone|DoubleMetaphone]
292
 
.IP "\(bu" 4
293
 
\&\f(CW\*(C`FollowSymLinks\*(C'\fR [yes|NO]
294
 
.IP "\(bu" 4
295
 
\&\f(CW\*(C`HTMLLinksMetaName\*(C'\fR *metaname*
296
 
.IP "\(bu" 4
297
 
\&\f(CW\*(C`IgnoreFirstChar\*(C'\fR *string of characters*
298
 
.IP "\(bu" 4
299
 
\&\f(CW\*(C`IgnoreLastChar\*(C'\fR *string of characters*
300
 
.IP "\(bu" 4
301
 
\&\f(CW\*(C`IgnoreLimit\*(C'\fR *integer integer*
302
 
.IP "\(bu" 4
303
 
\&\f(CW\*(C`IgnoreMetaTags\*(C'\fR *list of names*
304
 
.IP "\(bu" 4
305
 
\&\f(CW\*(C`IgnoreNumberChars\*(C'\fR *list of characters*
306
 
.IP "\(bu" 4
307
 
\&\f(CW\*(C`IgnoreTotalWordCountWhenRanking\*(C'\fR [YES|no]
308
 
.IP "\(bu" 4
309
 
\&\f(CW\*(C`IgnoreWords\*(C'\fR [*list of stop words*|File: path]
310
 
.IP "\(bu" 4
311
 
\&\f(CW\*(C`ImageLinksMetaName\*(C'\fR *metaname*
312
 
.IP "\(bu" 4
313
 
\&\f(CW\*(C`IncludeConfigFile\*(C'\fR
314
 
.IP "\(bu" 4
315
 
\&\f(CW\*(C`IndexAdmin\*(C'\fR *text*
316
 
.IP "\(bu" 4
317
 
\&\f(CW\*(C`IndexAltTagMetaName\*(C'\fR *tagname*|as\-text
318
 
.IP "\(bu" 4
319
 
\&\f(CW\*(C`IndexComments\*(C'\fR [yes|NO]
320
 
.IP "\(bu" 4
321
 
\&\f(CW\*(C`IndexContents\*(C'\fR [TXT|HTML|XML|TXT2|HTML2|XML2|TXT*|HTML*|XML*]  *file
 
248
AbsoluteLinks [yes|NO]
 
249
.IP "\(bu" 4
 
250
BeginCharacters *string of characters*
 
251
.IP "\(bu" 4
 
252
BumpPositionCounterCharacters *string*
 
253
.IP "\(bu" 4
 
254
Buzzwords [*list of buzzwords*|File: path]
 
255
.IP "\(bu" 4
 
256
CompressPositions  [yes|NO]
 
257
.IP "\(bu" 4
 
258
ConvertHTMLEntities [YES|no]
 
259
.IP "\(bu" 4
 
260
DefaultContents [TXT|HTML|XML|TXT2|HTML2|XML2|TXT*|HTML*|XML*]
 
261
.IP "\(bu" 4
 
262
Delay *seconds*
 
263
.IP "\(bu" 4
 
264
DontBumpPositionOnEndTags *list of names*
 
265
.IP "\(bu" 4
 
266
DontBumpPositionOnStartTags *list of names*
 
267
.IP "\(bu" 4
 
268
EnableAltSearchSyntax  [yes|NO]
 
269
.IP "\(bu" 4
 
270
EndCharacters *string of characters*
 
271
.IP "\(bu" 4
 
272
EquivalentServer *server alias*
 
273
.IP "\(bu" 4
 
274
ExtractPath *metaname* [replace|remove|prepend|append|regex]
 
275
.IP "\(bu" 4
 
276
FileFilter *suffix* *program* [options]
 
277
.IP "\(bu" 4
 
278
FileFilterMatch *program* *options* *regex* [*regex* ...]
 
279
.IP "\(bu" 4
 
280
FileInfoCompression [yes|NO]
 
281
.IP "\(bu" 4
 
282
FileMatch [contains|is|regex] *regular expression*
 
283
.IP "\(bu" 4
 
284
FileRules [contains|is|regex] *regular expression*
 
285
.IP "\(bu" 4
 
286
FuzzyIndexingMode [NONE|Stemming|Soundex|Metaphone|DoubleMetaphone]
 
287
.IP "\(bu" 4
 
288
FollowSymLinks [yes|NO]
 
289
.IP "\(bu" 4
 
290
HTMLLinksMetaName *metaname*
 
291
.IP "\(bu" 4
 
292
IgnoreFirstChar *string of characters*
 
293
.IP "\(bu" 4
 
294
IgnoreLastChar *string of characters*
 
295
.IP "\(bu" 4
 
296
IgnoreLimit *integer integer*
 
297
.IP "\(bu" 4
 
298
IgnoreMetaTags *list of names*
 
299
.IP "\(bu" 4
 
300
IgnoreNumberChars *list of characters*
 
301
.IP "\(bu" 4
 
302
IgnoreTotalWordCountWhenRanking [YES|no]
 
303
.IP "\(bu" 4
 
304
IgnoreWords [*list of stop words*|File: path]
 
305
.IP "\(bu" 4
 
306
ImageLinksMetaName *metaname*
 
307
.IP "\(bu" 4
 
308
IncludeConfigFile
 
309
.IP "\(bu" 4
 
310
IndexAdmin *text*
 
311
.IP "\(bu" 4
 
312
IndexAltTagMetaName *tagname*|as\-text
 
313
.IP "\(bu" 4
 
314
IndexComments [yes|NO]
 
315
.IP "\(bu" 4
 
316
IndexContents [TXT|HTML|XML|TXT2|HTML2|XML2|TXT*|HTML*|XML*]  *file
322
317
extensions*
323
318
.IP "\(bu" 4
324
 
\&\f(CW\*(C`IndexDescription\*(C'\fR *text*
325
 
.IP "\(bu" 4
326
 
\&\f(CW\*(C`IndexDir\*(C'\fR [URL|directories or files]
327
 
.IP "\(bu" 4
328
 
\&\f(CW\*(C`IndexFile\*(C'\fR *path*
329
 
.IP "\(bu" 4
330
 
\&\f(CW\*(C`IndexName\*(C'\fR *text*
331
 
.IP "\(bu" 4
332
 
\&\f(CW\*(C`IndexOnly\*(C'\fR *list of file suffixes*
333
 
.IP "\(bu" 4
334
 
\&\f(CW\*(C`IndexPointer\*(C'\fR *text*
335
 
.IP "\(bu" 4
336
 
\&\f(CW\*(C`IndexReport\*(C'\fR [0|1|2|3]
337
 
.IP "\(bu" 4
338
 
\&\f(CW\*(C`MaxDepth\*(C'\fR *integer*
339
 
.IP "\(bu" 4
340
 
\&\f(CW\*(C`MaxWordLimit\*(C'\fR *integer*
341
 
.IP "\(bu" 4
342
 
\&\f(CW\*(C`MetaNameAlias\*(C'\fR *meta name* *list of aliases*
343
 
.IP "\(bu" 4
344
 
\&\f(CW\*(C`MetaNames\*(C'\fR *list of names*
345
 
.IP "\(bu" 4
346
 
\&\f(CW\*(C`MinWordLimit\*(C'\fR *integer*
347
 
.IP "\(bu" 4
348
 
\&\f(CW\*(C`NoContents\*(C'\fR *list of file suffixes*
349
 
.IP "\(bu" 4
350
 
\&\f(CW\*(C`obeyRobotsNoIndex\*(C'\fR [yes|NO]
351
 
.IP "\(bu" 4
352
 
\&\f(CW\*(C`ParserWarnLevel\*(C'\fR [0|1|2|3]
353
 
.IP "\(bu" 4
354
 
\&\f(CW\*(C`PreSortedIndex\*(C'\fR *list of property names*
355
 
.IP "\(bu" 4
356
 
\&\f(CW\*(C`PropCompressionLevel\*(C'\fR [0\-9]
357
 
.IP "\(bu" 4
358
 
\&\f(CW\*(C`PropertyNameAlias\*(C'\fR *property name* *list of aliases*
359
 
.IP "\(bu" 4
360
 
\&\f(CW\*(C`PropertyNames\*(C'\fR *list of meta names*
361
 
.IP "\(bu" 4
362
 
\&\f(CW\*(C`PropertyNamesCompareCase\*(C'\fR *list of meta names*
363
 
.IP "\(bu" 4
364
 
\&\f(CW\*(C`PropertyNamesIgnoreCase\*(C'\fR *list of meta names*
365
 
.IP "\(bu" 4
366
 
\&\f(CW\*(C`PropertyNamesNoStripChars\*(C'\fR *list of meta names*
367
 
.IP "\(bu" 4
368
 
\&\f(CW\*(C`PropertyNamesDate\*(C'\fR *list of meta names*
369
 
.IP "\(bu" 4
370
 
\&\f(CW\*(C`PropertyNamesNumeric\*(C'\fR *list of meta names*
371
 
.IP "\(bu" 4
372
 
\&\f(CW\*(C`PropertyNamesMaxLength\*(C'\fR integer *list of meta names*
373
 
.IP "\(bu" 4
374
 
\&\f(CW\*(C`PropertyNamesSortKeyLength\*(C'\fR integer *list of meta names*
375
 
.IP "\(bu" 4
376
 
\&\f(CW\*(C`ReplaceRules\*(C'\fR [replace|remove|prepend|append|regex]
377
 
.IP "\(bu" 4
378
 
\&\f(CW\*(C`ResultExtFormatName\*(C'\fR  name \-x format string
379
 
.IP "\(bu" 4
380
 
\&\f(CW\*(C`SpiderDirectory\*(C'\fR *path*
381
 
.IP "\(bu" 4
382
 
\&\f(CW\*(C`StoreDescription\*(C'\fR [\s-1XML\s0 <tag>|HTML <meta>|TXT size]
383
 
.IP "\(bu" 4
384
 
\&\f(CW\*(C`"SwishProgParameters\*(C'\fR *list of parameters*
385
 
.IP "\(bu" 4
386
 
\&\f(CW\*(C`SwishSearchDefaultRule\*(C'\fR   [<\s-1AND\-WORD\s0>|<or\-word>]
387
 
.IP "\(bu" 4
388
 
\&\f(CW\*(C`SwishSearchOperators\*(C'\fR <and\-word> <or\-word> <not\-word>
389
 
.IP "\(bu" 4
390
 
\&\f(CW\*(C`TmpDir\*(C'\fR *path*
391
 
.IP "\(bu" 4
392
 
\&\f(CW\*(C`TranslateCharacters\*(C'\fR [*string1 string2*|:ascii7:]
393
 
.IP "\(bu" 4
394
 
\&\f(CW\*(C`TruncateDocSize\*(C'\fR *number of characters*
395
 
.IP "\(bu" 4
396
 
\&\f(CW\*(C`UndefinedMetaTags\*(C'\fR [error|ignore|INDEX|auto]
397
 
.IP "\(bu" 4
398
 
\&\f(CW\*(C`UndefinedXMLAttributes\*(C'\fR [DISABLE|error|ignore|index|auto]
399
 
.IP "\(bu" 4
400
 
\&\f(CW\*(C`UseStemming\*(C'\fR [yes|NO]
401
 
.IP "\(bu" 4
402
 
\&\f(CW\*(C`UseSoundex\*(C'\fR [yes|NO]
403
 
.IP "\(bu" 4
404
 
\&\f(CW\*(C`UseWords\*(C'\fR [*list of words*|File: path]
405
 
.IP "\(bu" 4
406
 
\&\f(CW\*(C`WordCharacters\*(C'\fR *string of characters*
407
 
.IP "\(bu" 4
408
 
\&\f(CW\*(C`XMLClassAttributes\*(C'\fR *list of \s-1XML\s0 attribute names*
 
319
IndexDescription *text*
 
320
.IP "\(bu" 4
 
321
IndexDir [URL|directories or files]
 
322
.IP "\(bu" 4
 
323
IndexFile *path*
 
324
.IP "\(bu" 4
 
325
IndexName *text*
 
326
.IP "\(bu" 4
 
327
IndexOnly *list of file suffixes*
 
328
.IP "\(bu" 4
 
329
IndexPointer *text*
 
330
.IP "\(bu" 4
 
331
IndexReport [0|1|2|3]
 
332
.IP "\(bu" 4
 
333
MaxDepth *integer*
 
334
.IP "\(bu" 4
 
335
MaxWordLimit *integer*
 
336
.IP "\(bu" 4
 
337
MetaNameAlias *meta name* *list of aliases*
 
338
.IP "\(bu" 4
 
339
MetaNames *list of names*
 
340
.IP "\(bu" 4
 
341
MinWordLimit *integer*
 
342
.IP "\(bu" 4
 
343
NoContents *list of file suffixes*
 
344
.IP "\(bu" 4
 
345
obeyRobotsNoIndex [yes|NO]
 
346
.IP "\(bu" 4
 
347
ParserWarnLevel [0|1|2|3]
 
348
.IP "\(bu" 4
 
349
PreSortedIndex *list of property names*
 
350
.IP "\(bu" 4
 
351
PropCompressionLevel [0\-9]
 
352
.IP "\(bu" 4
 
353
PropertyNameAlias *property name* *list of aliases*
 
354
.IP "\(bu" 4
 
355
PropertyNames *list of meta names*
 
356
.IP "\(bu" 4
 
357
PropertyNamesCompareCase *list of meta names*
 
358
.IP "\(bu" 4
 
359
PropertyNamesIgnoreCase *list of meta names*
 
360
.IP "\(bu" 4
 
361
PropertyNamesNoStripChars *list of meta names*
 
362
.IP "\(bu" 4
 
363
PropertyNamesDate *list of meta names*
 
364
.IP "\(bu" 4
 
365
PropertyNamesNumeric *list of meta names*
 
366
.IP "\(bu" 4
 
367
PropertyNamesMaxLength integer *list of meta names*
 
368
.IP "\(bu" 4
 
369
PropertyNamesSortKeyLength integer *list of meta names*
 
370
.IP "\(bu" 4
 
371
ReplaceRules [replace|remove|prepend|append|regex]
 
372
.IP "\(bu" 4
 
373
ResultExtFormatName  name \-x format string
 
374
.IP "\(bu" 4
 
375
SpiderDirectory *path*
 
376
.IP "\(bu" 4
 
377
StoreDescription [\s-1XML\s0 <tag>|HTML <meta>|TXT size]
 
378
.IP "\(bu" 4
 
379
"SwishProgParameters *list of parameters*
 
380
.IP "\(bu" 4
 
381
SwishSearchDefaultRule   [<AND-WORD>|<or-word>]
 
382
.IP "\(bu" 4
 
383
TmpDir *path*
 
384
.IP "\(bu" 4
 
385
TranslateCharacters [*string1 string2*|:ascii7:]
 
386
.IP "\(bu" 4
 
387
TruncateDocSize *number of characters*
 
388
.IP "\(bu" 4
 
389
UndefinedMetaTags [error|ignore|INDEX|auto]
 
390
.IP "\(bu" 4
 
391
UndefinedXMLAttributes [DISABLE|error|ignore|index|auto]
 
392
.IP "\(bu" 4
 
393
UseStemming [yes|NO]
 
394
.IP "\(bu" 4
 
395
UseSoundex [yes|NO]
 
396
.IP "\(bu" 4
 
397
UseWords [*list of words*|File: path]
 
398
.IP "\(bu" 4
 
399
WordCharacters *string of characters*
 
400
.IP "\(bu" 4
 
401
XMLClassAttributes *list of \s-1XML\s0 attribute names*
409
402
.Sh "Directives that Control Swish"
410
403
.IX Subsection "Directives that Control Swish"
411
404
These configuration directives control the general behavior of Swish\-e.
437
430
\&    3 = warnings
438
431
.Ve
439
432
.Sp
 
433
Currently (as of 2.4.4 \- early 2005) libxml2 only reports errors at level 2.
 
434
The default as of 2.4.4 is \*(L"2\*(R" which should report any errors that might indicate
 
435
a problem parsing a document.
 
436
.Sp
440
437
The exception to this is \s-1UTF\-8\s0 to Latin\-1 conversion errors are reported at
441
 
level 1.  This is because words may be indexed incorrectly in these cases.
 
438
level 3 (changed from 1 in 2.4.4).  Although these errors indicate a problem indexing
 
439
text, they are only reported at level 3 because they can be very common.
442
440
.Sp
443
 
Note that unlike other errors generated by Swish\-e, these errors are
444
 
sent to stderr.
 
441
It is recommended that you index at ParserWarnLevel 3 when first starting out to see
 
442
what errors and warnings are reported.  Then reduce the level when you understand what
 
443
documents are causing parsing problems and why.
445
444
.IP "IndexFile *path*" 4
446
445
.IX Item "IndexFile *path*"
447
446
Index file specifies the location of the generated index file.  If not
499
498
\&    "-"  = following word may not be in any document found
500
499
\&    " "  = following word will be searched in documents
501
500
.Ve
502
 
.IP "SwishSearchOperators <and\-word> <or\-word> <not\-word>" 4
503
 
.IX Item "SwishSearchOperators <and-word> <or-word> <not-word>"
 
501
.IP "SwishSearhOperators <and-word> <or-word> <not-word>" 4
 
502
.IX Item "SwishSearhOperators <and-word> <or-word> <not-word>"
504
503
\&\fB\s-1NOTE\s0\fR: This following item is currently not available.
505
504
.Sp
506
505
Using this config directive you can change the boolean search operators of
512
511
.Vb 1
513
512
\&    SwishSearchOperators   UND  ODER  NICHT
514
513
.Ve
515
 
.IP "SwishSearchDefaultRule   [<\s-1AND\-WORD\s0>|<or\-word>]" 4
 
514
.IP "SwishSearchDefaultRule   [<AND-WORD>|<or-word>]" 4
516
515
.IX Item "SwishSearchDefaultRule   [<AND-WORD>|<or-word>]"
517
516
\&\fB\s-1NOTE\s0\fR: This following item is currently not available.
518
517
.Sp
1200
1199
meta name is found but is \fBnot\fR listed in \fBMetaNames\fR.  There are
1201
1200
four choices:
1202
1201
.RS 4
1203
 
.IP "UndefinedMetaTags error" 2
1204
 
.IX Item "UndefinedMetaTags error"
 
1202
.IP "error" 2
 
1203
.IX Item "error"
1205
1204
If a meta name is found that is not listed in \fBMetaNames\fR
1206
1205
then indexing will be halted and an error reported.
1207
 
.IP "UndefinedMetaTags ignore" 2
1208
 
.IX Item "UndefinedMetaTags ignore"
 
1206
.IP "ignore" 2
 
1207
.IX Item "ignore"
1209
1208
The contents of the meta tag are ignored and \fBnot\fR indexed unless a metaname
1210
1209
has been defined with the \f(CW\*(C`MetaNames\*(C'\fR directive.
1211
 
.IP "UndefinedMetaTags index" 2
1212
 
.IX Item "UndefinedMetaTags index"
 
1210
.IP "index" 2
 
1211
.IX Item "index"
1213
1212
The contents of the meta tag are indexed, but placed in the
1214
1213
main index unless there's an enclosing metatag already in force. This
1215
1214
is the default.
1216
 
.IP "UndefinedMetaTags auto" 2
1217
 
.IX Item "UndefinedMetaTags auto"
 
1215
.IP "auto" 2
 
1216
.IX Item "auto"
1218
1217
This method create meta tags automatically for \s-1HTML\s0 meta names
1219
1218
and \s-1XML\s0 elements.  Using this is the same as specifying all the meta
1220
1219
names explicitly in a \fBMetaNames\fR directive.
1764
1763
.Ve
1765
1764
.IP "Stem or Stemming_en" 4
1766
1765
.IX Item "Stem or Stemming_en"
 
1766
\&\fB**This option is no longer supported.**\fR
 
1767
.Sp
1767
1768
Selects the legacy Swish-e English stemmer.
1768
1769
.Sp
1769
 
This is deprecated in favor of the Snowball English stemmers (Stemming_en1, Stemming_en2). 
1770
 
Future versions of Swish-e will likely use the Stemming_en2 stemmer by default.
 
1770
This is deprecated in favor of the Snowball English stemmer Stemming_en1.
1771
1771
.Sp
1772
1772
Words are converted using the Porter stemming algorithm.
1773
1773
.Sp
1774
1774
From: http://www.tartarus.org/~martin/PorterStemmer/
1775
1775
.Sp
1776
1776
.Vb 5
1777
 
\&    The Porter stemming algorithm (or �Porter stemmer�) is a
 
1777
\&    The Porter stemming algorithm (or Porter stemmer) is a
1778
1778
\&    process for removing the commoner morphological and inflexional
1779
1779
\&    endings from words in English. Its main use is as part of a
1780
1780
\&    term normalisation process that is usually done when setting up
2001
2001
.Sp
2002
2002
Note: Buzzwords specific settings for \f(CW\*(C`IgnoreFirstChar\*(C'\fR and \f(CW\*(C`IgnoreLastChar\*(C'\fR
2003
2003
may be used in the future.
 
2004
.IP "CompressPositions  [yes|NO]" 4
 
2005
.IX Item "CompressPositions  [yes|NO]"
 
2006
This option enables zlib compression for individual word data in the index file.
 
2007
The default is \s-1NO\s0, that is the index word data is not compressed by default.
 
2008
.Sp
 
2009
Enabling this option can reduced the size of the index file, but at the expense of
 
2010
slower wildcard search times.
 
2011
.Sp
 
2012
The default changed from \s-1YES\s0 to \s-1NO\s0 starting with version 2.4.3.
2004
2013
.IP "IgnoreWords [*list of stop words*|File: path]" 4
2005
2014
.IX Item "IgnoreWords [*list of stop words*|File: path]"
2006
2015
The IgnoreWords option allows you to specify words to ignore, called
2792
2801
Note that this can add a significant amount of time to the indexing
2793
2802
process if your external program is a perl or shell script.  If you
2794
2803
have many files to filter you should consider writing your filter in C
2795
 
instead of a shell or perl script, or using the \*(L"prog\*(R" Access Method.
 
2804
instead of a shell or perl script, or using the \*(L"prog\*(R" Access Method
 
2805
along with SWISH::Filter.
2796
2806
.IP "FilterDir  *path\-to\-directory*" 4
2797
2807
.IX Item "FilterDir  *path-to-directory*"
 
2808
Deprecated.
 
2809
.Sp
2798
2810
This is the path to a directory where the filter programs are stored.
2799
2811
Swish-e looks in this directory to find the filter specified in the
2800
 
\&\fBFileFilter\fR directive. If this directive is omitted, you have to
2801
 
specify the full path to the filterscript on each FileFilter directive.
 
2812
\&\fBFileFilter\fR directive.
2802
2813
.Sp
2803
 
This feature does *not* apply to the \f(CW\*(C`FileFilterMatch\*(C'\fR directive.
 
2814
This directive is not needed if the filter program can be found in
 
2815
your system's path.  Even if your filter is not in your system's path
 
2816
you can specify the full path to the filter in the FileFilter or
 
2817
FileFilterMatch directives.
2804
2818
.Sp
2805
2819
Example:
2806
2820
.Sp
2814
2828
starts with a directory delimiter (absolute path), Swish-e doesn't use
2815
2829
the FilterDir settings, but uses the given \fIfilter-prog\fR path directly.
2816
2830
.Sp
 
2831
On systems that have a working \fIfork\fR\|(2) system call the filter program
 
2832
is run by forking swish then executing the filter.  This mean the shell
 
2833
is not used for running the filter and no arguments are passed through the
 
2834
shell.
 
2835
.Sp
 
2836
On other systems (e.g. Windows) the arguments are double-quoted and
 
2837
\&\fIpopen\fR\|(3) is used to run the program.  This does pass argument though
 
2838
the shell and may be a security concern depending on the abilities of
 
2839
the shell.
 
2840
.Sp
2817
2841
Filter options:
2818
2842
.Sp
2819
2843
Filter options are a string passed as arguments to the \fIfilter-prog\fR.
2822
2846
listed above.
2823
2847
.Sp
2824
2848
.Vb 2
2825
 
\&    Default:      "'%p' '%P'"
2826
 
\&    Which means:  pass   "workfile path" and "documentfile path" to filter (each quoted).
 
2849
\&    Default:      %p %P
 
2850
\&    Which means:  pass   "workfile path" and "documentfile path" to filter.
2827
2851
.Ve
2828
2852
.Sp
2829
2853
Variables in filter options:
2849
2873
\&    %d =     /tmp
2850
2874
.Ve
2851
2875
.Sp
2852
 
Important hint for security:
2853
 
.Sp
2854
 
When using variable substitution, use quotes to ensure filename integrity.
2855
 
.Sp
2856
 
.Vb 1
2857
 
\&        e.g. "'%f'"  -->  'file name with spaces.doc'.
2858
 
.Ve
2859
 
.Sp
2860
 
If you don't use this, your system security may be compromised, or
2861
 
filtering may not work for these files.
2862
 
.Sp
2863
2876
\&\fBNotes when using \s-1MS\s0 Windows\fR
2864
2877
.Sp
2865
 
Windows uses double quotes to escape shell metacharacters, so reverse
2866
 
the quotes in the examples above.  e.g.:
 
2878
Windows uses double quotes to escape shell metacharacters, so if you need
 
2879
to use quotes then use single quotes around the entire option string.
2867
2880
.Sp
2868
2881
.Vb 1
2869
 
\&        '"%f"' --> "file name with spaced.doc"
 
2882
\&    FileFiler .mydoc mydocfilter.exe '--title "text with spaces"'
2870
2883
.Ve
2871
2884
.Sp
2872
2885
You can specify the filter program using forward slashes (unix style).
2879
2892
Examples of filters:
2880
2893
.Sp
2881
2894
.Vb 4
2882
 
\&    FileFilter .doc       /usr/local/bin/catdoc "-s8859-1 -d8859-1 '%p'"
2883
 
\&    FileFilter .pdf       pdftotext   "'%p' -"
2884
 
\&    FileFilter .html.gz   gzip  "-c '%p'"
2885
 
\&    FileFilter .mydoc     "/some/path/mydocfilter"  "-d '%d' -example -url '%P' '%f'"
 
2895
\&    FileFilter .doc       /usr/local/bin/catdoc "-s8859-1 -d8859-1 %p"
 
2896
\&    FileFilter .pdf       pdftotext   "%p -"
 
2897
\&    FileFilter .html.gz   gzip  "-c %p"
 
2898
\&    FileFilter .mydoc     "/some/path/mydocfilter"  "-d %d -example -url %P %f"
2886
2899
.Ve
2887
2900
.Sp
2888
2901
The above examples are running a \fIbinary\fR filter program.  For more
2915
2928
Examples:
2916
2929
.Sp
2917
2930
.Vb 1
2918
 
\&    FileFilterMatch ./pdftotext "'%p' -" /\e.pdf$/
 
2931
\&    FileFilterMatch ./pdftotext "%p -" /\e.pdf$/
2919
2932
.Ve
2920
2933
.Sp
2921
2934
Note that will also match a file called \*(L".pdf\*(R", so you may want to use
2923
2936
For example:
2924
2937
.Sp
2925
2938
.Vb 1
2926
 
\&    FileFilterMatch ./pdftotext "'%p' -" /.\e.pdf$/
 
2939
\&    FileFilterMatch ./pdftotext "%p -" /.\e.pdf$/
2927
2940
.Ve
2928
2941
.Sp
2929
2942
To specify more than one extension:
2939
2952
\&    FileFilterMatch ./check_title.pl %p /\e.html?$/
2940
2953
.Ve
2941
2954
.Sp
2942
 
And to ignore case:    
 
2955
And to ignore case:
2943
2956
.Sp
2944
2957
.Vb 1
2945
2958
\&    FileFilterMatch ./check_title.pl %p /\e.html?$/i
2953
2966
.Ve
2954
2967
.SH "Document Info"
2955
2968
.IX Header "Document Info"
2956
 
$Id: \s-1SWISH\-CONFIG\s0.pod,v 1.81 2004/10/25 13:57:17 karman Exp $
 
2969
$Id: \s-1SWISH\-CONFIG\s0.pod,v 1.91 2006/10/20 20:18:30 whmoseley Exp $
2957
2970
.PP
2958
2971
\&.