java - Lucene 4 - 如何丢弃索引中的数字项？

翻译自：https://stackoverflow.com/questions/28431311 2015-02-10T12:09:22.460

79 次

在使用Apache Lucene进行索引之前，我正在使用Apache Tika解析 xml 文档。

这是蒂卡的一部分：

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text

我使用带有停用词列表的 StandardAnalyzer 来标记我的文档：

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words

我可以丢弃数字项，因为我不需要它吗？

谢谢你的帮助。

java - Lucene 4 - 如何丢弃索引中的数字项？

0 回答 0

Related

Reference