4

我需要一种解决方案来识别书中不正确的章节标题。

我们正在为书籍开发一个摄取系统,该系统可以进行各种验证,例如拼写检查和攻击性语言过滤。现在我们想标记那些在章节正文中看起来不准确的章节标题。例如,如果标题是“脾脏的功能”,我不会指望这一章是关于肝脏的。

我熟悉模糊字符串匹配算法,但这似乎更像是 NLP 或分类问题。如果我能匹配(或紧密匹配)“脾脏功能”这个短语,那就太好了——高自信。否则,文本中“功能”和“脾脏”的高出现也会产生信心。当然,他们离得越近越好。

这需要在内存中、动态中和在 Java 中完成。

我目前的幼稚方法是简单地标记所有单词,删除干扰词(如介词),停止剩下的内容,然后计算匹配的数量。至少我希望标题中的每个单词在文本中至少出现一次。

是否有不同的方法,理想情况下会考虑接近度和排序等因素?

4

1 回答 1

1

我认为这是一个分类问题,因此看看WEKA

于 2013-11-26T09:24:42.210 回答