5

我正在尝试从文本 blob 中过滤名称。目前我只是生成一个单词列表并手动过滤它,但我有大约 8k 个单词要走,所以我正在寻找更好的方法。我可以拿一本字典并将它们过滤掉,但这会剔除史密斯和悬崖之类的名字。

我需要的是以下任一:

  • 常用名称列表(我需要 >5k 最常用的名称)
  • 也恰好是单词的名称列表

我想在他们之间,我可以做一个组合的黑名单/白名单来获得我需要的东西。

4

2 回答 2

5

美国人口普查名单:http ://www.census.gov/genealogy/www/

无论如何,这应该让你从一个角度看待这个问题。

编辑更改的 URL,根据下面关于页面移动的评论。没有人相信 HTTP 302 了吗?

于 2010-01-27T22:58:07.577 回答
2

从我在Quora找到的一篇文章中:

CMU 的 NELL 项目从网上收集了大量专有名词,并按类型对其进行分类。您可以在线浏览:NELL 知识库浏览器并下载数据:资源和数据

网络抓取结果,比如说,personUS似乎比我做的更有效,它从他们的大制表符分隔的 CSV 文件中标记为“person”的短语中提取名称列表。无论哪种方式,您都将使用正则表达式。

于 2016-06-21T15:57:40.810 回答