~slub.team/goobi-indexserver/3.x

BaseTokenStreamTestCase.assertAnalyzesTo(a, "Վիքիպեդիայի 13 միլիոն հոդվածները (4,600` հայերեն վիքիպեդիայում) գրվել են կամավորների կողմից ու համարյա բոլոր հոդվածները կարող է խմբագրել ցանկաց մարդ ով կարող է բացել Վիքիպեդիայի կայքը։",

118

new String[] { "Վիքիպեդիայի", "13", "միլիոն", "հոդվածները", "4,600", "հայերեն", "վիքիպեդիայում", "գրվել", "են", "կամավորների", "կողմից",

119

"ու", "համարյա", "բոլոր", "հոդվածները", "կարող", "է", "խմբագրել", "ցանկաց", "մարդ", "ով", "կարող", "է", "բացել", "Վիքիպեդիայի", "կայքը" } );

120

}

121

122

public void testAmharic() throws Exception {

123

BaseTokenStreamTestCase.assertAnalyzesTo(a, "ዊኪፔድያ የባለ ብዙ ቋንቋ የተሟላ ትክክለኛና ነጻ መዝገበ ዕውቀት (ኢንሳይክሎፒዲያ) ነው። ማንኛውም",

124

new String[] { "ዊኪፔድያ", "የባለ", "ብዙ", "ቋንቋ", "የተሟላ", "ትክክለኛና", "ነጻ", "መዝገበ", "ዕውቀት", "ኢንሳይክሎፒዲያ", "ነው", "ማንኛውም" } );

125

}

126

127

public void testArabic() throws Exception {

128

BaseTokenStreamTestCase.assertAnalyzesTo(a, "الفيلم الوثائقي الأول عن ويكيبيديا يسمى \"الحقيقة بالأرقام: قصة ويكيبيديا\" (بالإنجليزية: Truth in Numbers: The Wikipedia Story)، سيتم إطلاقه في 2008.",

129

new String[] { "الفيلم", "الوثائقي", "الأول", "عن", "ويكيبيديا", "يسمى", "الحقيقة", "بالأرقام", "قصة", "ويكيبيديا",

130

"بالإنجليزية", "Truth", "in", "Numbers", "The", "Wikipedia", "Story", "سيتم", "إطلاقه", "في", "2008" } );

131

}

132

133

public void testAramaic() throws Exception {

134

BaseTokenStreamTestCase.assertAnalyzesTo(a, "ܘܝܩܝܦܕܝܐ (ܐܢܓܠܝܐ: Wikipedia) ܗܘ ܐܝܢܣܩܠܘܦܕܝܐ ܚܐܪܬܐ ܕܐܢܛܪܢܛ ܒܠܫܢ̈ܐ ܣܓܝܐ̈ܐ܂ ܫܡܗ ܐܬܐ ܡܢ ܡ̈ܠܬܐ ܕ\"ܘܝܩܝ\" ܘ\"ܐܝܢܣܩܠܘܦܕܝܐ\"܀",

135

new String[] { "ܘܝܩܝܦܕܝܐ", "ܐܢܓܠܝܐ", "Wikipedia", "ܗܘ", "ܐܝܢܣܩܠܘܦܕܝܐ", "ܚܐܪܬܐ", "ܕܐܢܛܪܢܛ", "ܒܠܫܢ̈ܐ", "ܣܓܝܐ̈ܐ", "ܫܡܗ",

136

"ܐܬܐ", "ܡܢ", "ܡ̈ܠܬܐ", "ܕ", "ܘܝܩܝ", "ܘ", "ܐܝܢܣܩܠܘܦܕܝܐ"});

137

}

138

139

public void testBengali() throws Exception {

140

BaseTokenStreamTestCase.assertAnalyzesTo(a, "এই বিশ্বকোষ পরিচালনা করে উইকিমিডিয়া ফাউন্ডেশন (একটি অলাভজনক সংস্থা)। উইকিপিডিয়ার শুরু ১৫ জানুয়ারি, ২০০১ সালে। এখন পর্যন্ত ২০০টিরও বেশী ভাষায় উইকিপিডিয়া রয়েছে।",

141

new String[] { "এই", "বিশ্বকোষ", "পরিচালনা", "করে", "উইকিমিডিয়া", "ফাউন্ডেশন", "একটি", "অলাভজনক", "সংস্থা", "উইকিপিডিয়ার",

142

"শুরু", "১৫", "জানুয়ারি", "২০০১", "সালে", "এখন", "পর্যন্ত", "২০০টিরও", "বেশী", "ভাষায়", "উইকিপিডিয়া", "রয়েছে" });

143

}

144

145

public void testFarsi() throws Exception {

146

BaseTokenStreamTestCase.assertAnalyzesTo(a, "ویکی پدیای انگلیسی در تاریخ ۲۵ دی ۱۳۷۹ به صورت مکملی برای دانشنامهٔ تخصصی نوپدیا نوشته شد.",

147

new String[] { "ویکی", "پدیای", "انگلیسی", "در", "تاریخ", "۲۵", "دی", "۱۳۷۹", "به", "صورت", "مکملی",

148

"برای", "دانشنامهٔ", "تخصصی", "نوپدیا", "نوشته", "شد" });

149

}

150

151

public void testGreek() throws Exception {

152

BaseTokenStreamTestCase.assertAnalyzesTo(a, "Γράφεται σε συνεργασία από εθελοντές με το λογισμικό wiki, κάτι που σημαίνει ότι άρθρα μπορεί να προστεθούν ή να αλλάξουν από τον καθένα.",

153

new String[] { "Γράφεται", "σε", "συνεργασία", "από", "εθελοντές", "με", "το", "λογισμικό", "wiki", "κάτι", "που",

154

"σημαίνει", "ότι", "άρθρα", "μπορεί", "να", "προστεθούν", "ή", "να", "αλλάξουν", "από", "τον", "καθένα" });

155

}

156

157

public void testThai() throws Exception {

158

BaseTokenStreamTestCase.assertAnalyzesTo(a, "การที่ได้ต้องแสดงว่างานดี. แล้วเธอจะไปไหน? ๑๒๓๔",

159

new String[] { "การที่ได้ต้องแสดงว่างานดี", "แล้วเธอจะไปไหน", "๑๒๓๔" });

160

}

161

162

public void testLao() throws Exception {

163

BaseTokenStreamTestCase.assertAnalyzesTo(a, "ສາທາລະນະລັດ ປະຊາທິປະໄຕ ປະຊາຊົນລາວ",

164

new String[] { "ສາທາລະນະລັດ", "ປະຊາທິປະໄຕ", "ປະຊາຊົນລາວ" });

165

}

166

167

public void testTibetan() throws Exception {

168

BaseTokenStreamTestCase.assertAnalyzesTo(a, "སྣོན་མཛོད་དང་ལས་འདིས་བོད་ཡིག་མི་ཉམས་གོང་འཕེལ་དུ་གཏོང་བར་ཧ་ཅང་དགེ་མཚན་མཆིས་སོ། །",

169

new String[] { "སྣོན", "མཛོད", "དང", "ལས", "འདིས", "བོད", "ཡིག",

170

"མི", "ཉམས", "གོང", "འཕེལ", "དུ", "གཏོང", "བར",

171

"ཧ", "ཅང", "དགེ", "མཚན", "མཆིས", "སོ" });

172

}

173

174

175

* For chinese, tokenize as char (these can later form bigrams or whatever)

176

177

public void testChinese() throws Exception {

178

BaseTokenStreamTestCase.assertAnalyzesTo(a, "我是中国人。１２３４Ｔｅｓｔｓ ",

179

new String[] { "我", "是", "中", "国", "人", "１２３４", "Ｔｅｓｔｓ"});

180

}

181

182

public void testEmpty() throws Exception {

183

BaseTokenStreamTestCase.assertAnalyzesTo(a, "", new String[] {});

184

BaseTokenStreamTestCase.assertAnalyzesTo(a, ".", new String[] {});

185

BaseTokenStreamTestCase.assertAnalyzesTo(a, " ", new String[] {});

186

}

187

188

/* test various jira issues this analyzer is related to */

189

190

public void testLUCENE1545() throws Exception {

191

192

* Standard analyzer does not correctly tokenize combining character U+0364 COMBINING LATIN SMALL LETTRE E.

193

* The word "moͤchte" is incorrectly tokenized into "mo" "chte", the combining character is lost.

194

* Expected result is only on token "moͤchte".

195

196

BaseTokenStreamTestCase.assertAnalyzesTo(a, "moͤchte", new String[] { "moͤchte" });

197

}

198

199

/* Tests from StandardAnalyzer, just to show behavior is similar */

200

public void testAlphanumericSA() throws Exception {

201

// alphanumeric tokens

202

BaseTokenStreamTestCase.assertAnalyzesTo(a, "B2B", new String[]{"B2B"});

203

BaseTokenStreamTestCase.assertAnalyzesTo(a, "2B", new String[]{"2B"});

204

}

205

206

public void testDelimitersSA() throws Exception {

207

// other delimiters: "-", "/", ","

208

BaseTokenStreamTestCase.assertAnalyzesTo(a, "some-dashed-phrase", new String[]{"some", "dashed", "phrase"});

209

BaseTokenStreamTestCase.assertAnalyzesTo(a, "dogs,chase,cats", new String[]{"dogs", "chase", "cats"});

210

BaseTokenStreamTestCase.assertAnalyzesTo(a, "ac/dc", new String[]{"ac", "dc"});

211

}

212

213

public void testApostrophesSA() throws Exception {

214

// internal apostrophes: O'Reilly, you're, O'Reilly's

215

BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly", new String[]{"O'Reilly"});

216

BaseTokenStreamTestCase.assertAnalyzesTo(a, "you're", new String[]{"you're"});

217

BaseTokenStreamTestCase.assertAnalyzesTo(a, "she's", new String[]{"she's"});

218

BaseTokenStreamTestCase.assertAnalyzesTo(a, "Jim's", new String[]{"Jim's"});

219

BaseTokenStreamTestCase.assertAnalyzesTo(a, "don't", new String[]{"don't"});

220

BaseTokenStreamTestCase.assertAnalyzesTo(a, "O'Reilly's", new String[]{"O'Reilly's"});

221

}

222

223

public void testNumericSA() throws Exception {

224

// floating point, serial, model numbers, ip addresses, etc.

225

BaseTokenStreamTestCase.assertAnalyzesTo(a, "21.35", new String[]{"21.35"});

226

BaseTokenStreamTestCase.assertAnalyzesTo(a, "R2D2 C3PO", new String[]{"R2D2", "C3PO"});

227

BaseTokenStreamTestCase.assertAnalyzesTo(a, "216.239.63.104", new String[]{"216.239.63.104"});

228

}

229

230

public void testTextWithNumbersSA() throws Exception {

231

// numbers

232

BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones", new String[]{"David", "has", "5000", "bones"});

233

}

234

235

public void testVariousTextSA() throws Exception {

236

// various

237

BaseTokenStreamTestCase.assertAnalyzesTo(a, "C embedded developers wanted", new String[]{"C", "embedded", "developers", "wanted"});

238

BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo bar FOO BAR", new String[]{"foo", "bar", "FOO", "BAR"});

239

BaseTokenStreamTestCase.assertAnalyzesTo(a, "foo bar . FOO <> BAR", new String[]{"foo", "bar", "FOO", "BAR"});

240

BaseTokenStreamTestCase.assertAnalyzesTo(a, "\"QUOTED\" word", new String[]{"QUOTED", "word"});

241

}

242

243

public void testKoreanSA() throws Exception {

244

// Korean words

245

BaseTokenStreamTestCase.assertAnalyzesTo(a, "안녕하세요 한글입니다", new String[]{"안녕하세요", "한글입니다"});

246

}

247

248

public void testOffsets() throws Exception {

249

BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",

250

new String[] {"David", "has", "5000", "bones"},

251

new int[] {0, 6, 10, 15},

252

new int[] {5, 9, 14, 20});

253

}

254

255

public void testTypes() throws Exception {

256

BaseTokenStreamTestCase.assertAnalyzesTo(a, "David has 5000 bones",

257

new String[] {"David", "has", "5000", "bones"},

258

new String[] { "<ALPHANUM>", "<ALPHANUM>", "<NUM>", "<ALPHANUM>" });

259

}

260

261

public void testWikiURLs() throws Exception {

262

Reader reader = null;

263

String luceneResourcesWikiPage;

264

try {

265

reader = new InputStreamReader(getClass().getResourceAsStream

266

("LuceneResourcesWikiPage.html"), "UTF-8");

267

StringBuilder builder = new StringBuilder();

268

char[] buffer = new char[1024];

269

int numCharsRead;

270

while (-1 != (numCharsRead = reader.read(buffer))) {

271

builder.append(buffer, 0, numCharsRead);

272

}

273

luceneResourcesWikiPage = builder.toString();

274

} finally {

275

if (null != reader) {

276

reader.close();

277

}

278

}

279

assertTrue(null != luceneResourcesWikiPage

280

&& luceneResourcesWikiPage.length() > 0);

281

BufferedReader bufferedReader = null;

282

String[] urls;

283

try {

284

List<String> urlList = new ArrayList<String>();

285

bufferedReader = new BufferedReader(new InputStreamReader

286

(getClass().getResourceAsStream("LuceneResourcesWikiPageURLs.txt"), "UTF-8"));

287

String line;

288

while (null != (line = bufferedReader.readLine())) {

289

line = line.trim();

290

if (line.length() > 0) {

291

urlList.add(line);

292

}

293

}

294

urls = urlList.toArray(new String[urlList.size()]);

295

} finally {

296

if (null != bufferedReader) {

297

bufferedReader.close();

298

}

299

}

300

assertTrue(null != urls && urls.length > 0);

301

BaseTokenStreamTestCase.assertAnalyzesTo

302

(urlAnalyzer, luceneResourcesWikiPage, urls);

303

}

304

305

public void testEmails() throws Exception {

306

Reader reader = null;

307

String randomTextWithEmails;

308

try {

309

reader = new InputStreamReader(getClass().getResourceAsStream

310

("random.text.with.email.addresses.txt"), "UTF-8");

311

StringBuilder builder = new StringBuilder();

312

char[] buffer = new char[1024];

313

int numCharsRead;

314

while (-1 != (numCharsRead = reader.read(buffer))) {

315

builder.append(buffer, 0, numCharsRead);

316

}

317

randomTextWithEmails = builder.toString();

318

} finally {

319

if (null != reader) {

320

reader.close();

321

}

322

}

323

assertTrue(null != randomTextWithEmails

324

&& randomTextWithEmails.length() > 0);

325

BufferedReader bufferedReader = null;

326

String[] emails;

327

try {

328

List<String> emailList = new ArrayList<String>();

329

bufferedReader = new BufferedReader(new InputStreamReader

330

(getClass().getResourceAsStream

331

("email.addresses.from.random.text.with.email.addresses.txt"), "UTF-8"));

332

String line;

333

while (null != (line = bufferedReader.readLine())) {

334

line = line.trim();

335

if (line.length() > 0) {

336

emailList.add(line);

337

}

338

}

339

emails = emailList.toArray(new String[emailList.size()]);

340

} finally {

341

if (null != bufferedReader) {

342

bufferedReader.close();

343

}

344

}

345

assertTrue(null != emails && emails.length > 0);

346

BaseTokenStreamTestCase.assertAnalyzesTo

347

(emailAnalyzer, randomTextWithEmails, emails);

348

}

349

350

public void testURLs() throws Exception {

351

Reader reader = null;

352

String randomTextWithURLs;

353

try {

354

reader = new InputStreamReader(getClass().getResourceAsStream

355

("random.text.with.urls.txt"), "UTF-8");

356

StringBuilder builder = new StringBuilder();

357

char[] buffer = new char[1024];

358

int numCharsRead;

359

while (-1 != (numCharsRead = reader.read(buffer))) {

360

builder.append(buffer, 0, numCharsRead);

361

}

362

randomTextWithURLs = builder.toString();

363

} finally {

364

if (null != reader) {

365

reader.close();

366

}

367

}

368

assertTrue(null != randomTextWithURLs

369

&& randomTextWithURLs.length() > 0);

370

BufferedReader bufferedReader = null;

371

String[] urls;

372

try {

373

List<String> urlList = new ArrayList<String>();

374

bufferedReader = new BufferedReader(new InputStreamReader

375

(getClass().getResourceAsStream

376

("urls.from.random.text.with.urls.txt"), "UTF-8"));

377

String line;

378

while (null != (line = bufferedReader.readLine())) {

379

line = line.trim();

380

if (line.length() > 0) {

381

urlList.add(line);

382

}

383

}

384

urls = urlList.toArray(new String[urlList.size()]);

385

} finally {

386

if (null != bufferedReader) {

387

bufferedReader.close();

388

}

389

}

390

assertTrue(null != urls && urls.length > 0);

391

BaseTokenStreamTestCase.assertAnalyzesTo

392

(urlAnalyzer, randomTextWithURLs, urls);

393

}

394

395

public void testUnicodeWordBreaks() throws Exception {

396

WordBreakTestUnicode_6_0_0 wordBreakTest = new WordBreakTestUnicode_6_0_0();

397

wordBreakTest.test(a);

398

}

399

400

public void testSupplementary() throws Exception {

401

BaseTokenStreamTestCase.assertAnalyzesTo(a, "𩬅艱鍟䇹愯瀛",

402

new String[] {"𩬅", "艱", "鍟", "䇹", "愯", "瀛"},

403

new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>" });

404

}

405

406

public void testKorean() throws Exception {

407

BaseTokenStreamTestCase.assertAnalyzesTo(a, "훈민정음",

408

new String[] { "훈민정음" },

409

new String[] { "<HANGUL>" });

410

}

411

412

public void testJapanese() throws Exception {

413

BaseTokenStreamTestCase.assertAnalyzesTo(a, "仮名遣いカタカナ",

414

new String[] { "仮", "名", "遣", "い", "カタカナ" },

415

new String[] { "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<IDEOGRAPHIC>", "<HIRAGANA>", "<KATAKANA>" });

416

}

417

418

public void testCombiningMarks() throws Exception {

419

checkOneTerm(a, "ざ", "ざ"); // hiragana

420

checkOneTerm(a, "ザ", "ザ"); // katakana

421

checkOneTerm(a, "壹゙", "壹゙"); // ideographic

422

checkOneTerm(a, "아゙", "아゙"); // hangul

423

}

424

425

/** @deprecated remove this and sophisticated backwards layer in 5.0 */

426

@Deprecated

427

public void testCombiningMarksBackwards() throws Exception {

428

Analyzer a = new ReusableAnalyzerBase() {

429

@Override

430

protected TokenStreamComponents createComponents

431

(String fieldName, Reader reader) {

432

433

Tokenizer tokenizer = new UAX29URLEmailTokenizer(reader);

434

return new TokenStreamComponents(tokenizer);

435

}

436

};

437

checkOneTerm(a, "ざ", "さ"); // hiragana Bug

438

checkOneTerm(a, "ザ", "ザ"); // katakana Works

439

checkOneTerm(a, "壹゙", "壹"); // ideographic Bug

440

checkOneTerm(a, "아゙", "아゙"); // hangul Works

441

}

442

443

/** blast some random strings through the analyzer */

444

public void testRandomStrings() throws Exception {

445

checkRandomData(random, a, 10000*RANDOM_MULTIPLIER);

446

}

447

}

Older »