我需要一种解决方案来识别书中不正确的章节标题。
我们正在为书籍开发一个摄取系统,该系统可以进行各种验证,例如拼写检查和攻击性语言过滤。现在我们想标记那些在章节正文中看起来不准确的章节标题。例如,如果标题是“脾脏的功能”,我不会指望这一章是关于肝脏的。
我熟悉模糊字符串匹配算法,但这似乎更像是 NLP 或分类问题。如果我能匹配(或紧密匹配)“脾脏功能”这个短语,那就太好了——高自信。否则,文本中“功能”和“脾脏”的高出现也会产生信心。当然,他们离得越近越好。
这需要在内存中、动态中和在 Java 中完成。
我目前的幼稚方法是简单地标记所有单词,删除干扰词(如介词),停止剩下的内容,然后计算匹配的数量。至少我希望标题中的每个单词在文本中至少出现一次。
是否有不同的方法,理想情况下会考虑接近度和排序等因素?