我有电子产品目录。我将它们保存在 SQL DB 中的字段/列中,例如 Title、Mfg Part Nr、UPC 等。然后我通过外部网站爬取列出了例如 Amazon的电子产品。在大多数情况下,这会产生一些 HTML 文本,尽管我可以找出标题。我需要比较这个 HTML 文本(外部网站上的网页的结果)是否描述了我拥有的产品。
我知道这种比较并不准确,即我不希望这能在 100% 的时间内纠正。有没有办法做到这一点?
虽然很难提供一个完整的例子,但让我们将比较限制在两个产品的标题上。
我拥有的标题:摩托罗拉 Talkabout MH230R 便携式 - 双向收音机 - FRS/GMRS 22 频道 - 黄色(3 件装)
亚马逊的标题:摩托罗拉 MH230TPR Giant 可充电两路收音机 3 件装,FRS/GMRS
这些代表相同的产品。有什么方法可以确定这些是否相似/相同?简单的文本比较是行不通的。
如果有工具可以解决这个问题,那就太好了。如果不是,我会很感激我可以用来进一步研究这个领域的算法或一些指针。
我知道 C# 和 Java。在比较图像和寻找最佳点时,我使用了一些与数值分析相关的 AI/神经网络——尤其是反向传播和遗传算法。然而,我不知道如何处理文本数据。
如果这个问题不清楚,请告诉我,我会尽量澄清我的描述。谢谢你们。