我正在开发一个网络应用程序,我从多个网站收集有关手机的数据。问题是网站使用的手机命名略有不同。例如,网站对这两款手机的名称使用以下变体:
HTC One X+(黑色);HTC One X+ 黑色;HTC One X Plus;HTC One X Plus,黑色
三星 Galaxy S3(卵石蓝,16GB);三星 Galaxy S III(蓝色);三星 Galaxy S3 I9300 16GB 卵石蓝;三星 I9300 Galaxy S III (16 GB);三星 Galaxy S3 (I9300),卵石蓝
由于我使用爬虫从这些网站上读取了这些数据,因此我需要我的程序将所有这些不同的字符串解析为同一个产品。
有任何想法吗?如果重要的话,我正在使用python。