~slub.team/goobi-indexserver/3.x

« back to all changes in this revision

Viewing changes to lucene/contrib/benchmark/src/java/org/apache/lucene/benchmark/byTask/feeds/TrecFBISParser.java

  • Committer: Sebastian Meyer
  • Date: 2012-08-03 09:12:40 UTC
  • Revision ID: sebastian.meyer@slub-dresden.de-20120803091240-x6861b0vabq1xror
Remove Lucene and Solr source code and add patches instead
Fix Bug #985487: Auto-suggestion for the search interface

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
package org.apache.lucene.benchmark.byTask.feeds;
2
 
 
3
 
/**
4
 
 * Licensed to the Apache Software Foundation (ASF) under one or more
5
 
 * contributor license agreements.  See the NOTICE file distributed with
6
 
 * this work for additional information regarding copyright ownership.
7
 
 * The ASF licenses this file to You under the Apache License, Version 2.0
8
 
 * (the "License"); you may not use this file except in compliance with
9
 
 * the License.  You may obtain a copy of the License at
10
 
 *
11
 
 *     http://www.apache.org/licenses/LICENSE-2.0
12
 
 *
13
 
 * Unless required by applicable law or agreed to in writing, software
14
 
 * distributed under the License is distributed on an "AS IS" BASIS,
15
 
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
16
 
 * See the License for the specific language governing permissions and
17
 
 * limitations under the License.
18
 
 */
19
 
 
20
 
import java.io.IOException;
21
 
import java.util.Date;
22
 
 
23
 
/**
24
 
 * Parser for the FBIS docs in trec disks 4+5 collection format
25
 
 */
26
 
public class TrecFBISParser extends TrecDocParser {
27
 
 
28
 
  private static final String HEADER = "<HEADER>";
29
 
  private static final String HEADER_END = "</HEADER>";
30
 
  private static final int HEADER_END_LENGTH = HEADER_END.length();
31
 
  
32
 
  private static final String DATE1 = "<DATE1>";
33
 
  private static final String DATE1_END = "</DATE1>";
34
 
  
35
 
  private static final String TI = "<TI>";
36
 
  private static final String TI_END = "</TI>";
37
 
 
38
 
  @Override
39
 
  public DocData parse(DocData docData, String name, TrecContentSource trecSrc, 
40
 
      StringBuilder docBuf, ParsePathType pathType) throws IOException, InterruptedException {
41
 
    int mark = 0; // that much is skipped
42
 
    // optionally skip some of the text, set date, title
43
 
    Date date = null;
44
 
    String title = null;
45
 
    int h1 = docBuf.indexOf(HEADER);
46
 
    if (h1>=0) {
47
 
      int h2 = docBuf.indexOf(HEADER_END,h1);
48
 
      mark = h2+HEADER_END_LENGTH;
49
 
      // date...
50
 
      String dateStr = extract(docBuf, DATE1, DATE1_END, h2, null);
51
 
      if (dateStr != null) {
52
 
        date = trecSrc.parseDate(dateStr);
53
 
      }
54
 
      // title...
55
 
      title = extract(docBuf, TI, TI_END, h2, null);
56
 
    }
57
 
    docData.clear();
58
 
    docData.setName(name);
59
 
    docData.setDate(date);
60
 
    docData.setTitle(title);
61
 
    docData.setBody(stripTags(docBuf, mark).toString());
62
 
    return docData;
63
 
  }
64
 
 
65
 
}