2

我有几百条推文可供我使用,我希望通过获取他们的真实姓名并查看他们的至少 2 条推文来将每个推特用户分类为男性和女性。我已经编程从他们的个人资料中获取每个人的真实姓名,现在我正在寻找对他们的推文文本进行分类,以尝试更强有力地确认用户是 M 还是 F。我已经查看并在线搜索了文本示例分类,但不太确定从哪里开始。我还在此链接Twitter Text With Gender Download 中发现了一些非常有用的数据。 任何关于如何将推文文本分类为男性或女性撰写的建议将不胜感激!我有点撞到了一堵砖墙。

4

5 回答 5

6

你需要一个训练集,这是一个显而易见的声明。没有其他办法。正如您在上一个问题中已经说明的那样,使用朴素贝叶斯分类来识别 Twitter 用户的性别,您可以手动创建它们,也可以以半监督方式创建它们,在其中使用外部规则(如那些真实姓名)创建训练集.

最简单的方法是使用现有的推文数据来训练带有性别标签的分类器,我建议: http ://clic.cimec.unitn.it/amac/twitter_ngram/

其他资源:博客性别:http ://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

于 2013-08-24T19:52:14.907 回答
5

我没有任何其他由男性或女性编写的 SURE 文本数据集来帮助训练分类器。

这对你来说是一个障碍。您需要使用这样的数据集执行监督学习,例如使用感知器学习器;或者您需要执行无监督学习,例如 k-means 聚类,并尝试找到您可以(有些随意)声明为男性或女性信号的集群。在实践中,用无监督的方法区分性别几乎是不可能的,至少在没有其他现有信息、先验或可以构建的特征图的情况下。

于 2013-08-24T19:43:06.967 回答
2

你可以看看我的 python 性别检测项目https://github.com/muatik/genderizer

它试图通过查看作者姓名和/或样本文本(例如推文)来检测作者的性别。

于 2014-04-17T20:32:13.020 回答
1

您可能还想看看这个基于名字返回性别的 REST API:http ://www.thomas-bayer.com/restnames/

于 2013-08-26T21:03:36.830 回答
0

genderComputer是@Bogdan Vasilescu 的一个 Python 脚本,它试图从一个人的名字(主要是名字)和位置(国家)中推断出一个人的性别。该工具将来自不同国家的信息与有关小词、l33t-speak 和数据的信息相结合gender.c这是一个开源 C 程序,用于基于名称的性别推断

于 2014-08-16T13:51:25.133 回答