2

考虑有 n 行类似于下面的文本:

  • “Sony KDL46NX720 BRAVIA 46”3D LED 背光高清电视 - 1080p、1920 x 1080、16:9、120Hz、HDMI、USB、WiFi Ready » Tiger Direct 售价 1148.99 美元

  • “三星 NV40 10.5 MP 数码相机 - 银色 - 3 倍变焦镜头 » eBay 售价 64.99 美元”

  • “Gateway NV57H27u 15.6”笔记本,Intel Core i3-2310M (2.10GHz),4GB DDR3 内存,500GB HDD,DVD Super Multi-Drive,Windows 7 Home Premium 64-Bit (Pink) - LX.WZF02.002 » 售价 399.99 美元买网”

我想解析这些字符串并将它们中的每一个分类为“电视、相机、笔记本电脑”等。

文本属性可能相似也可能不相似。


如何全面做到这一点?

我应该使用什么代码/工具?

什么语言?

我不想做关键字搜索。可以使用类/属性逻辑对这些字符串进行分类吗?

我可以使用 Protege 来构建类/子类层次结构吗?


我对这个数据挖掘领域完全陌生。所以请原谅我的无知!

提前致谢。

4

1 回答 1

0

正则表达式,即使是 javascript 也可以完成工作

编辑:

   变量标准 = {
      相机 : {
         标识符: /.*camera.*/ ,
         分辨率: /.*(\d+)\s*x\s*(\d*).*/ ,
         值: /.*$(\d+).*/ ,
         ...
      },
      笔记本 : {
         标识符:/.*notebook.*/,
         内存:/.*(d+)GB\s*(DDR.).*/
         ...
      }
      ...
   }

然后编写一个简单的引擎,使用这个结构来分析每一行

编辑2:

这一点都不容易,因为您需要提供某种知识数据库,但是有可能,您可以使用这样的页面来提供它。

http://en.wikipedia.org/wiki/List_of_CPU_power_dissipation

但是根据您对代码的智能程度,是否需要为一个以上的人工作或一天以上的工作。

于 2011-10-25T20:08:09.460 回答