java - 如何在 Java 中使用模糊逻辑验证文本的章节标题

Question

我需要一种解决方案来识别书中不正确的章节标题。

我们正在为书籍开发一个摄取系统，该系统可以进行各种验证，例如拼写检查和攻击性语言过滤。现在我们想标记那些在章节正文中看起来不准确的章节标题。例如，如果标题是“脾脏的功能”，我不会指望这一章是关于肝脏的。

我熟悉模糊字符串匹配算法，但这似乎更像是 NLP 或分类问题。如果我能匹配（或紧密匹配）“脾脏功能”这个短语，那就太好了——高自信。否则，文本中“功能”和“脾脏”的高出现也会产生信心。当然，他们离得越近越好。

这需要在内存中、动态中和在 Java 中完成。

我目前的幼稚方法是简单地标记所有单词，删除干扰词（如介词），停止剩下的内容，然后计算匹配的数量。至少我希望标题中的每个单词在文本中至少出现一次。

是否有不同的方法，理想情况下会考虑接近度和排序等因素？

score 1 · Accepted Answer

1

我认为这是一个分类问题，因此看看WEKA

于 2013-11-26T09:24:42.210 回答

1 回答 1