我已经成为学校里一个项目的一部分,到目前为止这个项目很有趣,而且变得更有趣了。我拥有大约 600,000 条推文(每条都包含网名、地理位置、文本等),我的目标是尝试将每个用户分类为男性或女性。现在使用 Twitter4J,我可以得到用户的全名、朋友数量、转发推文等。所以我想知道结合查看用户名和进行文本分析是否是一个可能的答案。我原本以为我可以把它做成一个基于规则的分类器,我可以先查看用户的姓名,然后分析他们的文本并尝试得出 M 或 F 的结论。我猜我在使用诸如此类的东西时会遇到麻烦天真的贝叶斯,因为我没有真正的真值?
还有名字,我会检查某种字典来解释这个名字是男性还是女性。我知道有些情况很难说,但这就是为什么我也会查看他们的推文文本。我也忘了提;有了这 600,000 条推文,我每个用户至少有两条推文可供我使用。
任何关于分类用户性别的想法或输入将不胜感激!我在这方面没有大量经验,我希望学习任何我能掌握的东西。