Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
试图将完整的句子索引为自己的领域。如果我在 Nutch 中进行句子拆分,使用 OpenNLP 或 LingPipe 之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?
这两个地方都需要一些修改。
nutch 解析器从爬取的内容中删除格式。因此,当内容存储在 nutch 段中时,换行符就消失了。您需要修改该部分。
默认情况下,nutch(它的 solr 执行此操作)将考虑单词而不是句子进行索引。所以你也必须在那里偷看。