我有一个从 java 程序输出的文本文件,它查找多个文档中提到的人名的频率,并将它们写入文件(peopleNames.txt),如下所示:
article1location\article1 name1:countofname1# name2:countofname2# name3:countofname3# ...
article2location\article2 name1:countofname1# name2:countofname2# name3:countofname3# ...
article3location\article3 name1:countofname1# name2:countofname2# name3:countofname3# ...
这些名称对应于每篇文章中确定的人名以及他们在文章中出现的频率,大约有 90,000 篇文章。我有另一个文本文件(titles.lst),其中包含大约 40 个不同的头衔及其缩写(如先生、夫人、总统、先生等)的列表。我想在文件中使用此列表来搜索并从 peopleNames.txt 中删除这些标题。我不知道如何在 java 中处理它,因为我是 java 新手,需要修改 java 中生成 peopleNames.txt 的原始代码以适应标题删除。
我的程序将像 John Smith 先生这样的人识别为与 John Smith 不同的人,因此删除标题可以让我更准确地计算文章中提到的姓名。
提前感谢您的帮助。