1

我有大量数据(数十万条记录),它们是 CSV 中的唯一条目。这些条目本质上是在商店中列出的来自提供这些产品的供应商的产品。问题是,虽然他们为我们提供了逐字复制这些内容或更改措辞的权利,但我显然不想逐字列出它们,因为谷歌会因“重复”内容而对排名进行打击。然后,同样明显的是,手动编辑 500,000 个项目将花费大量时间。

解决方案似乎是利用模糊逻辑,将某些措辞转化为不同的东西,然后不会受到谷歌的惩罚。迄今为止,我一直无法找到任何真正的图书馆来解决这个问题或解决这种情况的可靠解决方案。

我正在考虑通过自己的算法来实现这一点,但我讨厌重新发明轮子,或者更糟糕的是,在尝试失败后被大 G 击败。

我的想法是简单地搜索各种短语和单词(没有停用词),然后基本上将它们映射到可以随机插入的短语和单词,它们仍然具有相同的含义,但有足够的实质内容,希望不会导致排名下降的情况。

的解决方案Ruby将是最佳的,但绝对没有必要,因为可以使用任何语言。

是否有任何现有的算法、理论或类似场景的实现可用于建模或解决此类场景?

4

0 回答 0