1

试图将完整的句子索引为自己的领域。如果我在 Nutch 中进行句子拆分,使用 OpenNLP 或 LingPipe 之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?

4

1 回答 1

0

这两个地方都需要一些修改。

nutch 解析器从爬取的内容中删除格式。因此,当内容存储在 nutch 段中时,换行符就消失了。您需要修改该部分。

默认情况下,nutch(它的 solr 执行此操作)将考虑单词而不是句子进行索引。所以你也必须在那里偷看。

于 2012-04-21T19:09:33.167 回答