9

有哪些好的算法可以用城市/地区或原产地自动标记文本?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述。是否有任何包装/文件声称可以肯定地做到这一点?

我已经研究了一些基于 tfidf 的方法、专有名词交集,但到目前为止,还没有取得惊人的成功,我会很感激想法!

给定一些主题列表,更一般的问题是关于将文本分配给主题。

简单/天真的方法更喜欢完全使用贝叶斯方法,但我很开放。

4

2 回答 2

13

您正在寻找命名实体识别系统或简称 NER。有几个 很好的 工具包可以帮助你。特别是 LingPipe 有一个非常不错的教程CAGEclass似乎是针对地理地名的NER,但我还没有使用它。

这是一篇很好的博客文章,介绍了 NER 与地名的困难。

如果您使用 Java,我建议您使用 LingPipe NER 类。OpenNLP 也有一些,但前者有更好的文档。

如果您正在寻找一些理论背景,查韦斯等人。(2005)构建了一个有趣的同义词并记录了它。

于 2008-10-02T21:38:52.570 回答
2

潜在语义映射似乎很合适。这与您可能会发现的算法一样天真。

于 2008-10-02T21:46:48.197 回答