1

任何人都可以提出一个好的名称来源,我可以用来帮助分析网页上的一些表格。

我正在抓取的表格的第一列只有名称,名称和标题或只是标题。

名字可以从约翰史密斯到维克拉姆萨克塞纳多种多样。
我一直在寻找可以在专有名称中找到的单词的编译列表。

已编辑我已经尝试过人口普查中设置的名称,其中有很多垃圾,不值得使用。

4

1 回答 1

1

下载Febrl 项目源代码

它的数据文件夹包含名称表(给定/中间/姓/等)。您可能必须根据自己的需要对数据进行按摩。

对于姓氏,您可以查看美国人口普查数据。我现在没有链接,但我知道我以前使用过来自该来源的常见美国姓氏。

于 2010-04-25T01:30:34.413 回答