我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程、书籍、学术文献)。
我知道这可能属于 NLP 类别,但我只对“Levi 牛仔裤尺寸 32 A0b293”之类的过程感兴趣
to:品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293
我想这将是词法解析和机器学习技术的某种结合。
我与语言无关,但如果推送我更喜欢 python、Matlab 或 C++ 参考
谢谢
我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程、书籍、学术文献)。
我知道这可能属于 NLP 类别,但我只对“Levi 牛仔裤尺寸 32 A0b293”之类的过程感兴趣
to:品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293
我想这将是词法解析和机器学习技术的某种结合。
我与语言无关,但如果推送我更喜欢 python、Matlab 或 C++ 参考
谢谢
您需要提供有关文本来源(网络?用户输入?)、域(只是衣服吗?)、潜在格式和词汇的更多信息……
假设最坏的情况,您需要开始学习 NLP。一本非常好的免费书是 NLTK 的文档:http ://www.nltk.org/book 。它也是对 Python 的一个很好的介绍,并且软件是免费的(用于各种用途)。请注意:NLP 很难。它并不总是有效。有时并不好玩。最先进的技术与您想象的相差无几。
假设一个更好的场景(你的文本是半结构化的)——一个很好的免费工具是pyparsing。有一本书,大量的例子,生成的代码非常有吸引力。
我希望这有帮助...
经过一些研究,我发现这个问题通常被称为信息提取,并且已经积累了一些论文并将它们存储在 Mendeley Collection
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
同样正如 Tai Weiss 所说,NLTK for python 是一个很好的起点,本书的这一章专门研究信息提取
可能看托比·塞加兰的“集体智慧”。我似乎记得在一章中解决了这个基础知识。
如果您只处理您引用的示例之类的案例,那么您最好使用一些基于手动规则的 100% 可预测并涵盖它可能遇到生产的 90% 的案例。
您可以枚举所有可能的品牌和类别的列表,并检测输入字符串中哪个是哪个,因为这两个列表中通常很少有交集。
其他两个可以使用正则表达式轻松检测和提取。(1-3 位数字总是大小等)
您的问题域似乎不足以保证采用更繁重的方法,例如统计学习。