我遇到了一些较小的列表/名称集,但我想知道是否有免费的数据源可以提供名称列表(逗号分隔或在 sql 结构中)?
我找到了这两个网站:
http://names.mongabay.com/most_common_surnames.htm
http://baby-names.familyeducation.com/browse/letter/a?detoured=1
但是,您似乎只能浏览名称,而不能下载综合文件。
美国人口普查局不提供这些信息吗?
我遇到了一些较小的列表/名称集,但我想知道是否有免费的数据源可以提供名称列表(逗号分隔或在 sql 结构中)?
我找到了这两个网站:
http://names.mongabay.com/most_common_surnames.htm
http://baby-names.familyeducation.com/browse/letter/a?detoured=1
但是,您似乎只能浏览名称,而不能下载综合文件。
美国人口普查局不提供这些信息吗?
我正在编译一个数据库,其中包含来自各种不同国家和文化的姓氏,其中包括英国。该项目及其数据集可在此处找到:https ://github.com/enorvelle/NameDatabases (死:链接、项目和 GitHub 帐户)
这似乎已迁移到github.com/smashew/NameDatabases。(唯一贡献者“Erik Norvelle”。)
我能找到的最好的来源是社会保障局提供的数据——与人口普查数据不同,他们每年都有名字,可以追溯到 1900 年左右。
The Census Bureau provides list of common surnames from the 2000 and 1990 censuses: http://www.census.gov/topics/population/genealogy/data/2000_surnames.html http://www.census.gov/topics/population/genealogy/data/1990_census/1990_census_namefiles.html
The 1990 census files also have lists of common male and female names.
选项 1) 我将数百万人的数据上传到 github,这些数据是从不同的网站抓取并从 Google 开放数据集转储的。
https://github.com/aakashkag/People-Name-List [名字和姓氏目录的 Github 链接]
选项 2)
谷歌 BigQuery 公共数据集: https ://cloud.google.com/bigquery/public-data/
您可以从 Google 开放数据集中获取姓名以及性别。
1)数据集:bigquery-public-data:github_repos
示例:https ://app.hyfy.io/v/abRJ75Xizno/
查询:SELECT * FROM fh-bigquery.popular_names.usa_summary_1880_2015
LIMIT 1000 Total Names available : 1858689
2)日期集:bigquery-public-data.github_repos.commits
查询:SELECT author.name 作为 author_name,author.email 作为 author_email,committer.name 作为 committer_name,committer.email 作为 committer_email,repo_name FROMbigquery-public-data.github_repos.commits
3)日期集:bigquery-public-data.usa_names.usa_1910_2013`
查询:SELECT * FROMbigquery-public-data.usa_names.usa_1910_2013
或者你可以从 Linkdin https://www.linkedin.com/directory/people-a