我非常感谢您对以下问题的最佳方法的想法。我正在使用本质上相似的汽车分类列表示例来给出一个想法。
问题:从给定文本中提取数据元组。
以下是数据的一些特征。
文本中的词汇(单词)仅限于特定领域。让我们假设最多 100-200 个单词。
需要解析的文本是如下所示的汽车广告数据之类的标题。所以每条记录对应一个元组(行)。
在某些情况下,某些属性可能会丢失。例如,在原始数据中,年份下方的第 5 行缺失。
一些单词一起出现(bigrams)。比如“低里程”。
可用历史数据 = 10,000 条记录
传入新数据量 = 1000-1500 条记录/周
预期输出应采用(年份、品牌、型号、特征)的形式。所以输出应该看起来像
1 -> (2009, 福特, Fusion, SE)
2 -> (1997, 福特, Taurus, Wagon)
3 -> (2000, 三菱, Mirage, DE)
4 -> (2007, 福特, Expedition, EL Limited)
5 -> ( , 本田, 雅阁, EX)
....
....
原始标题数据:
1 -> 2009 Ford Fusion SE - 7000 美元
2 -> 1997 Ford Taurus Wagon - 800 美元(东圣何塞)
3 -> '00 Mitsubishi Mirage DE - 2499 美元(萨拉托加)图片
4 -> 2007 Ford Expedition EL Limited - 7800 美元(x)
5 -> 本田雅阁 ex 低里程 - 2800 美元(都柏林/
格莱宁/利弗莫尔)图片 6 -> 2004 本田 ODASSEY LX 68K 英里 - 10800 美元(丹维尔/圣拉蒙)
7 -> 93 LINCOLN MARK - 2000 美元(奥克兰东部)图片
8 - > #######2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### - 19700 美元(圣拉斐尔)图
9 -> 2004 年奥迪 A4 1.8T FWD - 8900 美元(萨克拉门托)图
10 -> ## #####2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - 10575 美元(圣拉斐尔)图片
11 -> 1990 年丰田卡罗拉运行良好!节气!5速清洁!REG 2011 OBO - 1600 美元(海沃德 / 卡斯特罗山谷)图片
12 -> HONDA ACCORD EX 2000 - 4900 美元(都柏林 / 洛伊肯 / 利弗莫尔)图片
13 -> 2009 雪佛兰 Silverado LT 乘员驾驶室 - 23900 美元(都柏林 / 洛宁 / 利弗莫尔)图
14 -> 2010 年讴歌 TSX - V6 - TECH - 29900 美元(都柏林/宜宾/利弗莫尔)图片
15 -> 2003 日产 Altima - 1830 美元(SF)图片
可能的选择:
- 机器学习文本分类器(朴素贝叶斯等)
- 正则表达式
我想弄清楚的是,RegEx 是否对这项工作来说太复杂了,而文本分类器是否过大?
如果选择使用文本分类器,那么您认为最容易实现的是什么。
提前感谢您的帮助。