我有一组文字报纸广告,我想提取所售商品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问成千上万个这样的广告。
我应该从哪里开始这个项目?有没有图书馆可以帮忙?
谢谢
我有一组文字报纸广告,我想提取所售商品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问成千上万个这样的广告。
我应该从哪里开始这个项目?有没有图书馆可以帮忙?
谢谢
最简单的方法似乎是使用规则和字典。例如,您可以使用简单的正则表达式解析价格并使用大型项目字典进行检索。
如果您不熟悉这个概念,您可以尝试观看IBM Big Insight Text Analytics的以下视频。他们的项目正在提取有关 IBM 股票的价格信息,与您的项目类似。他们从这个项目开始,并通过一系列视频几乎完成了它。一路上,他们教了更多关于正则表达式的知识。
请注意,此视频可能会帮助您了解此类项目的工作流程。如果您精通任何具有良好正则表达式支持的编程语言,perl、ruby、python、groovy……您可以轻松地重复他们的实验。
我也从未使用过这个产品,但观看了所有这些视频,希望能更多地了解文本挖掘。我再说一遍,您可以在没有此产品的情况下完成所有这些操作,但当然不太容易。
根据您的编码经验以及文本文件的格式,一种方法是将它们导入 Excel 并使用“文本到列”功能以某种方式将广告的字段拆分为单独的单元格。
例如,如果您有Name: Black car和Price: $1000.00那么 Excel 可以使用设置为在冒号上拆分的 Text to Columns 函数轻松拆分它们。
也许更详细地解释文本文件的格式。