13

除了闭源 Web 应用程序之外,我找不到任何东西。有没有活跃的项目?我有兴趣在我正在开发和参与的事情中使用该软件。

4

10 回答 10

2

There is a whole set of two-class analyzers that could be adapted here... spam-blocking and identification software. It still requires the user to get male-written text (treated as spam) and female text (treated as ham, or the reverse), but many should work.

于 2008-12-29T15:27:17.667 回答
2

这是另一个声称这样做的网站:GenderAnalyzer。然而,它依赖于另一个名为 uClassify.com 的网站,在我撰写本文时该网站已关闭。他们在底部有一个用于提问的联系链接。

这听起来像是一套学术装备:“在我们的实验室中,它似乎运作良好”。

于 2008-12-28T00:01:49.063 回答
1

有像“性别精灵”这样的应用程序在合理的成功范围内运行:http: //bookblog.net/gender/genie.php(尤其是较长的文本)

它不需要完全成功。我需要处理大量数据,而且主要是为了好玩。

如果有人知道任何事情,请分享。

理查德

于 2008-12-27T22:05:34.227 回答
1

由于您假设有两个类别,因此几乎任何分类器都可以。一些建议:

  • 朴素贝叶斯
  • 支持向量机

正如一位较早的评论者所说,从已知的文本样本开始(应该有很多......报纸语料库可能很好),在一些合理的属性(可能存在/不存在或单词或单词对)上进行训练和分类。

这个应该(比较)容易。

如果您使用的是 python,即使是像自然语言工具包(参见:nltk.org)和他们的书这样简单的东西,也应该能让您大有帮助。

于 2008-12-27T22:57:12.830 回答
0

nlpers几年前在博客上写过这个;请参阅那里的评论以获取一些建议...

于 2009-02-22T20:57:08.833 回答
0

您可以在此处尝试对文本字符串进行性别分类:http: //uclassify.com/browse/uClassify/gender_v3

于 2008-12-31T16:17:53.443 回答
0

你会遇到一个问题:猜测只是——猜测。甚至没有远程准确的方法可以严格地从作者的作品中分辨出作者的性别,您最多只能得到一个错误的估计。

于 2008-12-27T21:25:57.443 回答
0

嘿嘿,这个应该可以了。你需要从男性和女性作者那里拿一堆书,提取句子,将它们混合起来,然后将它们输入某种神经网络进行训练。老实说,我很想看看是否有人把它拉下来。哦,我只是好奇为什么需要这样一个程序:)

于 2008-12-27T21:47:06.497 回答
0

史蒂芬·贝克 (Stephen Baker) 的书中有一段关于这方面的内容,The Numerati。有些公司致力于计算分析博客圈以用于营销目的,他们的部分算法处理决定作者是男性还是女性。我建议阅读这个。

我不相信这样的工作是开源的,但你也许可以自己构建一个压缩版本。但是,由于没有分析大量数据以对此进行编程,我认为它不会非常准确。

于 2008-12-27T22:11:15.840 回答
0

有一些潜在语义索引/分析的开源实现。如果您有一个与您的应用程序相关的良好的男性和女性写作训练集,它可能能够准确地分类以提供有用的信息。

于 2008-12-27T22:13:49.500 回答