我可以用什么方法从姓氏来预测一个人的国籍?
我有大量作者的文本和姓氏。我想确定哪些文本是由说拉丁语的人写的,哪些是由母语为英语的人写的,以便研究一组与另一组相比是否某些写作风格模式不同。
我在 google 和 pubmed 中查找了姓氏数据库,但找不到任何可免费访问的。另一种方法是使用一些正则表达式,例如“.*ez”来识别一些西班牙裔姓氏,例如“rodriguez”,但这并没有让我走得太远。
你有什么建议吗?由于我将在做出预测后手动修改所有关联,因此我不需要很高的准确性,但欢迎任何帮助或想法。