我正在尝试从文本 blob 中过滤名称。目前我只是生成一个单词列表并手动过滤它,但我有大约 8k 个单词要走,所以我正在寻找更好的方法。我可以拿一本字典并将它们过滤掉,但这会剔除史密斯和悬崖之类的名字。
我需要的是以下任一:
- 常用名称列表(我需要 >5k 最常用的名称)
- 也恰好是单词的名称列表
我想在他们之间,我可以做一个组合的黑名单/白名单来获得我需要的东西。
我正在尝试从文本 blob 中过滤名称。目前我只是生成一个单词列表并手动过滤它,但我有大约 8k 个单词要走,所以我正在寻找更好的方法。我可以拿一本字典并将它们过滤掉,但这会剔除史密斯和悬崖之类的名字。
我需要的是以下任一:
我想在他们之间,我可以做一个组合的黑名单/白名单来获得我需要的东西。
美国人口普查名单:http ://www.census.gov/genealogy/www/
无论如何,这应该让你从一个角度看待这个问题。
编辑更改的 URL,根据下面关于页面移动的评论。没有人相信 HTTP 302 了吗?
从我在Quora找到的一篇文章中:
CMU 的 NELL 项目从网上收集了大量专有名词,并按类型对其进行分类。您可以在线浏览:NELL 知识库浏览器并下载数据:资源和数据。
网络抓取结果,比如说,personUS似乎比我做的更有效,它从他们的大制表符分隔的 CSV 文件中标记为“person”的短语中提取名称列表。无论哪种方式,您都将使用正则表达式。