0

我正在处理一个 MYSQL 表,其中我有过去 2 年收集的用户报告的数千个(2 万个)问题。现在我必须单独处理这个报告的问题,我面临的问题是这些报告的问题中有许多是相似的(我的意思是很多)。我想在表中找到匹配项。

我在这里再次遇到的问题是“报告的问题”是手动编写的,因此它们彼此不同。但匹配可能包含一些常用词

所以我想知道是否有一种方法可以通过常用词在 MYSQL 表中查找匹配项。

我在这里尝试做的是在不使用任何特定关键字的情况下检索相似的行(在许多关键字中)

有什么工具可以做到这一点吗?有没有办法做到这一点?我也对我工作的所有类型的 php 脚本持开放态度,提前谢谢你

4

1 回答 1

0

我会先询问具有领域知识的人,询问他们绝对排名前 2 或 3 个经常出现的问题。他们应该能够把这些卷起来。

请他们向您提供这 2 或 3 个主要问题中使用的术语和同义词,否则您必须自己做。

克隆表并在其上放置FULLTEXT索引,看看全文搜索在识别匹配问题方面的有效性。

如果这不能从语料库中产生很好的结果,我会感到惊讶,但如果它们不够好,那么您可能想进入 NLP(自然语言处理)领域 - 更自然的适合该领域的是工具集不过,您可以与 Python 一起使用。

另一种选择是构建某种标记系统,但最好的依赖于人工干预,它们的成功很大程度上取决于 GUI 构建的好坏。

于 2013-08-15T09:47:48.647 回答