任何人都可以提出一个好的名称来源,我可以用来帮助分析网页上的一些表格。
我正在抓取的表格的第一列只有名称,名称和标题或只是标题。
名字可以从约翰史密斯到维克拉姆萨克塞纳多种多样。
我一直在寻找可以在专有名称中找到的单词的编译列表。
已编辑我已经尝试过人口普查中设置的名称,其中有很多垃圾,不值得使用。
任何人都可以提出一个好的名称来源,我可以用来帮助分析网页上的一些表格。
我正在抓取的表格的第一列只有名称,名称和标题或只是标题。
名字可以从约翰史密斯到维克拉姆萨克塞纳多种多样。
我一直在寻找可以在专有名称中找到的单词的编译列表。
已编辑我已经尝试过人口普查中设置的名称,其中有很多垃圾,不值得使用。
下载Febrl 项目源代码。
它的数据文件夹包含名称表(给定/中间/姓/等)。您可能必须根据自己的需要对数据进行按摩。
对于姓氏,您可以查看美国人口普查数据。我现在没有链接,但我知道我以前使用过来自该来源的常见美国姓氏。