尽我所能从大量的 pdf 文件中获取信息。将它们采用字典格式,其中键是给定日期,值是职业列表。
适当的时候看起来像这样:
'12/29/2014': [['COUNSELING',
'NURSING',
'NURSING',
'NURSING',
'NURSING',
'NURSING']]
然而,偶尔也有几个词不能用一个词的形式可靠地理解的职业,例如:
'11/03/2014': [['DENTISTRY',
'OSTEOPATHIC',
'MEDICINE',
'SURGERY',
'SOCIAL',
'SPEECH-LANGUAGE',
'PATHOLOGY']]
请注意,“osteopathic Medicine & Surgery”和“Speech-language pathology”是其中两个条目的全文。当我们也有“整骨疗法”甚至“药物”的例子时,这就变得更加棘手了。
所以我的问题是——我应该如何测试这些词的组合,看看它们是否匹配更复杂的职业头衔?我可以使用相同的单词顺序,就像我从源头上坚持的那样。
谢谢!