~slub.team/goobi-indexserver/3.x

« back to all changes in this revision

Viewing changes to lucene/contrib/analyzers/common/src/test/org/apache/lucene/analysis/pt/TestPortugueseLightStemFilter.java

  • Committer: Sebastian Meyer
  • Date: 2012-08-03 09:12:40 UTC
  • Revision ID: sebastian.meyer@slub-dresden.de-20120803091240-x6861b0vabq1xror
Remove Lucene and Solr source code and add patches instead
Fix Bug #985487: Auto-suggestion for the search interface

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
package org.apache.lucene.analysis.pt;
2
 
 
3
 
/**
4
 
 * Licensed to the Apache Software Foundation (ASF) under one or more
5
 
 * contributor license agreements.  See the NOTICE file distributed with
6
 
 * this work for additional information regarding copyright ownership.
7
 
 * The ASF licenses this file to You under the Apache License, Version 2.0
8
 
 * (the "License"); you may not use this file except in compliance with
9
 
 * the License.  You may obtain a copy of the License at
10
 
 *
11
 
 *     http://www.apache.org/licenses/LICENSE-2.0
12
 
 *
13
 
 * Unless required by applicable law or agreed to in writing, software
14
 
 * distributed under the License is distributed on an "AS IS" BASIS,
15
 
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
16
 
 * See the License for the specific language governing permissions and
17
 
 * limitations under the License.
18
 
 */
19
 
 
20
 
import java.io.IOException;
21
 
import java.io.Reader;
22
 
 
23
 
import org.apache.lucene.analysis.Analyzer;
24
 
import org.apache.lucene.analysis.BaseTokenStreamTestCase;
25
 
import org.apache.lucene.analysis.TokenStream;
26
 
import org.apache.lucene.analysis.Tokenizer;
27
 
import org.apache.lucene.analysis.LowerCaseFilter;
28
 
import org.apache.lucene.analysis.standard.StandardTokenizer;
29
 
import org.apache.lucene.analysis.ReusableAnalyzerBase;
30
 
 
31
 
import static org.apache.lucene.analysis.VocabularyAssert.*;
32
 
 
33
 
/**
34
 
 * Simple tests for {@link PortugueseLightStemFilter}
35
 
 */
36
 
public class TestPortugueseLightStemFilter extends BaseTokenStreamTestCase {
37
 
  private Analyzer analyzer = new ReusableAnalyzerBase() {
38
 
    @Override
39
 
    protected TokenStreamComponents createComponents(String fieldName,
40
 
        Reader reader) {
41
 
      Tokenizer source = new StandardTokenizer(TEST_VERSION_CURRENT, reader);
42
 
      TokenStream result = new LowerCaseFilter(TEST_VERSION_CURRENT, source);
43
 
      return new TokenStreamComponents(source, new PortugueseLightStemFilter(result));
44
 
    }
45
 
  };
46
 
  
47
 
  /**
48
 
   * Test the example from the paper "Assessing the impact of stemming accuracy
49
 
   * on information retrieval"
50
 
   */
51
 
  public void testExamples() throws IOException {
52
 
    assertAnalyzesTo(
53
 
        analyzer,
54
 
    "O debate político, pelo menos o que vem a público, parece, de modo nada "
55
 
    + "surpreendente, restrito a temas menores. Mas há, evidentemente, "
56
 
    + "grandes questões em jogo nas eleições que se aproximam.",
57
 
    new String[] { 
58
 
      "o", "debat", "politic", "pelo", "meno", "o", "que", "vem", "a", 
59
 
      "public", "parec", "de", "modo", "nada", "surpreendent", "restrit",
60
 
      "a", "tema", "menor", "mas", "há", "evident", "grand", "questa",
61
 
      "em", "jogo", "nas", "eleica", "que", "se", "aproximam"
62
 
    });
63
 
  }
64
 
  
65
 
  /**
66
 
   * Test examples from the c implementation
67
 
   */
68
 
  public void testMoreExamples() throws IOException {
69
 
     checkOneTerm(analyzer, "doutores", "doutor");
70
 
     checkOneTerm(analyzer, "doutor", "doutor");
71
 
     
72
 
     checkOneTerm(analyzer, "homens", "homem");
73
 
     checkOneTerm(analyzer, "homem", "homem");
74
 
     
75
 
     checkOneTerm(analyzer, "papéis", "papel");
76
 
     checkOneTerm(analyzer, "papel", "papel");
77
 
     
78
 
     checkOneTerm(analyzer, "normais", "normal");
79
 
     checkOneTerm(analyzer, "normal", "normal");
80
 
     
81
 
     checkOneTerm(analyzer, "lencóis", "lencol");
82
 
     checkOneTerm(analyzer, "lencol", "lencol");
83
 
     
84
 
     checkOneTerm(analyzer, "barris", "barril");
85
 
     checkOneTerm(analyzer, "barril", "barril");
86
 
     
87
 
     checkOneTerm(analyzer, "botões", "bota");
88
 
     checkOneTerm(analyzer, "botão", "bota");
89
 
  }
90
 
  
91
 
  /** Test against a vocabulary from the reference impl */
92
 
  public void testVocabulary() throws IOException {
93
 
    assertVocabulary(analyzer, getDataFile("ptlighttestdata.zip"), "ptlight.txt");
94
 
  }
95
 
  
96
 
  /** blast some random strings through the analyzer */
97
 
  public void testRandomStrings() throws Exception {
98
 
    checkRandomData(random, analyzer, 10000*RANDOM_MULTIPLIER);
99
 
  }
100
 
}