考虑有 n 行类似于下面的文本:
“Sony KDL46NX720 BRAVIA 46”3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » Tiger Direct 售价 1148.99 美元
“三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » eBay 售价 64.99 美元”
“Gateway NV57H27u 15.6”笔记本,Intel Core i3-2310M (2.10GHz),4GB DDR3 内存,500GB HDD,DVD Super Multi-Drive,Windows 7 Home Premium 64-Bit (Pink) - LX.WZF02.002 » 售价 399.99 美元买网”
我想解析这些字符串并将它们中的每一个分类为“电视、相机、笔记本电脑”等。
文本属性可能相似也可能不相似。
如何全面做到这一点?
我应该使用什么代码/工具?
什么语言?
我不想做关键字搜索。可以使用类/属性逻辑对这些字符串进行分类吗?
我可以使用 Protege 来构建类/子类层次结构吗?
我对这个数据挖掘领域完全陌生。所以请原谅我的无知!
提前致谢。