2

尽我所能从大量的 pdf 文件中获取信息。将它们采用字典格式,其中键是给定日期,值是职业列表。

适当的时候看起来像这样:

'12/29/2014': [['COUNSELING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING']]

然而,偶尔也有几个词不能用一个词的形式可靠地理解的职业,例如:

'11/03/2014': [['DENTISTRY',
                 'OSTEOPATHIC',
                 'MEDICINE',
                 'SURGERY',
                 'SOCIAL',
                 'SPEECH-LANGUAGE',
                 'PATHOLOGY']]

请注意,“osteopathic Medicine & Surgery”和“Speech-language pathology”是其中两个条目的全文。当我们也有“整骨疗法”甚至“药物”的例子时,这就变得更加棘手了。

所以我的问题是——我应该如何测试这些词的组合,看看它们是否匹配更复杂的职业头衔?我可以使用相同的单词顺序,就像我从源头上坚持的那样。

谢谢!

4

0 回答 0