我试图通过相关性在数据库中找到类似的文章。
所以我将文本拆分为单词数组,然后删除常用词(文章、代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本,它是有效的,但对于其他文本,它不是那么好(大文本的文本具有更高的系数)。
有人可以建议一个找到相关文本的好方法吗?
我试图通过相关性在数据库中找到类似的文章。
所以我将文本拆分为单词数组,然后删除常用词(文章、代词等),然后将两个文本与皮尔逊系数函数进行比较。对于某些文本,它是有效的,但对于其他文本,它不是那么好(大文本的文本具有更高的系数)。
有人可以建议一个找到相关文本的好方法吗?
您提到的一些问题归结为对文档长度和整体词频进行规范化。尝试tf-idf。
首先,您需要指定相似性的确切含义以及两个文档(更多/更少)相似的时间。
如果您正在寻找的相似性是字面的,那么我将使用术语频率对文档进行矢量化,并使用余弦相似性将它们相互比较,因为文本本质上是定向数据。tf-idf和对数熵加权方案可能会根据您的用例进行测试。长文本的编辑距离效率低下。
如果你更关心语义,词嵌入是你的盟友。