10

我可以用什么方法从姓氏来预测一个人的国籍?

我有大量作者的文本和姓氏。我想确定哪些文本是由说拉丁语的人写的,哪些是由母语为英语的人写的,以便研究一组与另一组相比是否某些写作风格模式不同。

我在 google 和 pubmed 中查找了姓氏数据库,但找不到任何可免费访问的。另一种方法是使用一些正则表达式,例如“.*ez”来识别一些西班牙裔姓氏,例如“rodriguez”,但这并没有让我走得太远。

你有什么建议吗?由于我将在做出预测后手动修改所有关联,因此我不需要很高的准确性,但欢迎任何帮助或想法。

4

4 回答 4

4

我认为你不能以任何程度的可靠性做到这一点。罗德里格斯很可能有西班牙血统的名字,但很可能在任何地方出生和长大。他们可能是第二代英国人,他们周围从来没有讲过西班牙语,因此属于以英语为母语的人。

于 2011-09-27T13:51:39.693 回答
3

如果是实际作者,那么也许您可以搜索亚马逊并检查他们的“作者信息”详细信息?

我想你猜不到。例如,爱尔兰姓氏 - 估计有 80,000,000 人具有爱尔兰血统,但其中有 450 万人生活在爱尔兰/接受过爱尔兰教育。

于 2011-09-27T13:54:16.260 回答
2

没有有意义的方法可以做到这一点。西班牙裔名字的人没有理由不能以英语为母语。

如果你无论如何都要修改它,为什么不使用你拥有的数据呢?

于 2011-09-27T13:53:53.363 回答
1

假设您打算对文本进行编程比较,则必须手动对文本进行分类。不正确的猜测可能会导致您为文本分析构建一个损坏的算法。这对于机器学习尤其成问题,例如人工神经网络。

于 2011-09-27T13:56:52.937 回答