parsing - 数据提取 - 需要想法

Question

考虑有 n 行类似于下面的文本：

“Sony KDL46NX720 BRAVIA 46”3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » Tiger Direct 售价 1148.99 美元
“三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » eBay 售价 64.99 美元”
“Gateway NV57H27u 15.6”笔记本，Intel Core i3-2310M (2.10GHz)，4GB DDR3 内存，500GB HDD，DVD Super Multi-Drive，Windows 7 Home Premium 64-Bit (Pink) - LX.WZF02.002 » 售价 399.99 美元买网”

我想解析这些字符串并将它们中的每一个分类为“电视、相机、笔记本电脑”等。

文本属性可能相似也可能不相似。

如何全面做到这一点？

我应该使用什么代码/工具？

什么语言？

我不想做关键字搜索。可以使用类/属性逻辑对这些字符串进行分类吗？

我可以使用 Protege 来构建类/子类层次结构吗？

我对这个数据挖掘领域完全陌生。所以请原谅我的无知！

提前致谢。

score 0 · Accepted Answer

正则表达式，即使是 javascript 也可以完成工作

编辑：

   变量标准 = {
      相机 ： {
         标识符： /.*camera.*/ ,
         分辨率： /.*(\d+)\s*x\s*(\d*).*/ ，
         值： /.*$(\d+).*/ ,
         ...
      },
      笔记本 ： {
         标识符：/.*notebook.*/，
         内存：/.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

然后编写一个简单的引擎，使用这个结构来分析每一行

编辑2：

这一点都不容易，因为您需要提供某种知识数据库，但是有可能，您可以使用这样的页面来提供它。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

但是根据您对代码的智能程度，是否需要为一个以上的人工作或一天以上的工作。

parsing - 数据提取 - 需要想法

1 回答 1

Related

Reference