我希望将诸如“Canon D1000 4MP Camera 2X Zoom LCD”之类的非结构化产品标题解析为结构化数据,例如{brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
.
到目前为止,我有:
- 删除停用词并清理(删除字符,如
-
;
:
/
) - 将长字符串标记为单词。
任何技术/库/方法/算法将不胜感激!
编辑:产品标题没有启发式。卖家可以输入任何内容作为标题。例如:“Canon D1000”可以只是标题。此外,此练习不仅适用于相机数据集,标题可以是任何产品。