2

我有一个自然语言处理项目,但为此我需要从雅虎新闻、谷歌新闻或博客等来源抓取许多网络文章......

我是一个java开发者(所以我宁愿使用java工具)。我想我可以自己解析每个源网站并使用 HttpClient / XPath 提取文章但我有点懒:) 有没有办法让我不必为每个源制作一个解析器?

(我不仅对新文章感兴趣,而且对 2000 年至今的文章也感兴趣)

4

1 回答 1

4

NLP 最难的部分是获取可以使用的数据。其他一切都只是数学。

由于涉及所有版权问题,可能很难在每个新闻来源的网站上找到大量新闻文章集合。如果您不需要最近的新闻,最好的办法可能是查看 Linguistic Data Consortium 的English Gigaword corpus;如果您在大学里,可能已经有您可以免费使用数据的现有关系。

如果您需要实际抓取和解析网站,现在您可能会发现您必须为各种新闻网站编写特定的解析器,以确保您获得正确的文本。但是,一旦更多的网站开始使用 HTML5,通过使用文章标签来提取相关文本会更容易。

要进行实际的抓取,前面的问题可以为您指出一些有用的方向。

于 2010-11-29T01:42:30.237 回答