如何在实体和类别(来自列表或分类)中对从文本(使用 NLP/NLTK 或 Textblob)中提取的单词进行分类?
我将有关键字数据库,我想从文本中逐行提取匹配的关键字。
例如下面的文本文件
日期、说明、入款 (€)、出款 (€)
1) 2016 年 3 月 3 日,CNC CNCWORD1 CNCWORD2 P 01/03 3, , 2.95
2) 16 年 3 月 3 日 POS POSWORD1 CNCWORD2 01/03 0, , 20
3) 2016 年 3 月 2 日 CNC CNCWORD3 28/02, , 1.604) 2-Mar-16 POS POSWORD3 POSWORD4 29/02 17, ,102.3
和关键字数据库
{CNC CNCWORD1,CNCWORD3,POS POSWORD1 CNCWORD2,POS POSWORD3}
从每一行使用 NLP 获得可能的匹配关键字
对于上面的例子,我们将有:
1) CNC CNCWORD1 2) POS POSWORD1 CNCWORD2 3) CNCWORD3 4) POS POSWORD3