用于分析 Internet 上的文件!
问问题
3342 次
2 回答
5
或者,R有许多可用于文本挖掘的工具,并且使用 RPy2很容易与 Python 集成。
查看 CRAN上的自然语言处理视图。特别是看tm
包装。以下是一些相关链接:
- Journal of Statistical Computing 关于软件包的论文:http://www.jstatsoft.org/v25/i05/paper。该论文包含一个很好的示例,该示例分析了 2006 年的 R-devel 邮件列表 ( https://stat.ethz.ch/pipermail/r-devel/ ) 新闻组帖子。
- 包主页:http ://cran.r-project.org/web/packages/tm/index.html
- 查看介绍性小插图:http ://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
此外,R 提供了许多用于解析 HTML 或 XML 的工具。看看这个问题以获取使用and packages的示例RCurl
XML
。
于 2009-10-31T17:00:20.127 回答
3
您能否提供更多信息,为什么 NLTK 不足,或者您需要哪些功能才能将某些框架视为“最佳”?
尽管如此,还是有内置的shlex词法解析库。
最近还有一本关于该主题的书,Natural Language Processing with Python。看起来它至少有一部分涵盖了 NLTK。
您可能还想查看一下在waretek网站上的教程和库列表,它也指向NLQ.py框架。
使用 Python 进行自然语言处理 http://ecx.images-amazon.com/images/I/41NBqj7NyGL._BO2.jpg
于 2009-10-28T13:18:34.437 回答