1

我有一组文字报纸广告,我想提取所售商品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问成千上万个这样的广告。

我应该从哪里开始这个项目?有没有图书馆可以帮忙?

谢谢

4

3 回答 3

3

最简单的方法似乎是使用规则字典。例如,您可以使用简单的正则表达式解析价格并使用大型项目​​字典进行检索。

于 2012-08-15T01:51:32.603 回答
0

如果您不熟悉这个概念,您可以尝试观看IBM Big Insight Text Analytics的以下视频。他们的项目正在提取有关 IBM 股票的价格信息,与您的项目类似。他们从这个项目开始,并通过一系列视频几乎完成了它。一路上,他们教了更多关于正则表达式的知识。

请注意,此视频可能会帮助您了解此类项目的工作流程。如果您精通任何具有良好正则表达式支持的编程语言,perl、ruby、python、groovy……您可以轻松地重复他们的实验。

我也从未使用过这个产品,但观看了所有这些视频,希望能更多地了解文本挖掘。我再说一遍,您可以在没有此产品的情况下完成所有这些操作,但当然不太容易。

于 2012-08-15T06:04:03.673 回答
0

根据您的编码经验以及文本文件的格式,一种方法是将它们导入 Excel 并使用“文本到列”功能以某种方式将广告的字段拆分为单独的单元格。

例如,如果您有Name: Black carPrice: $1000.00那么 Excel 可以使用设置为在冒号上拆分的 Text to Columns 函数轻松拆分它们。

也许更详细地解释文本文件的格式。

于 2012-08-15T01:40:34.607 回答