java - 我应该用什么来抓取许多新闻文章？

Question

我有一个自然语言处理项目，但为此我需要从雅虎新闻、谷歌新闻或博客等来源抓取许多网络文章......

我是一个java开发者（所以我宁愿使用java工具）。我想我可以自己解析每个源网站并使用 HttpClient / XPath 提取文章但我有点懒:) 有没有办法让我不必为每个源制作一个解析器？

（我不仅对新文章感兴趣，而且对 2000 年至今的文章也感兴趣）

score 4 · Accepted Answer

NLP 最难的部分是获取可以使用的数据。其他一切都只是数学。

由于涉及所有版权问题，可能很难在每个新闻来源的网站上找到大量新闻文章集合。如果您不需要最近的新闻，最好的办法可能是查看 Linguistic Data Consortium 的English Gigaword corpus；如果您在大学里，可能已经有您可以免费使用数据的现有关系。

如果您需要实际抓取和解析网站，现在您可能会发现您必须为各种新闻网站编写特定的解析器，以确保您获得正确的文本。但是，一旦更多的网站开始使用 HTML5，通过使用文章标签来提取相关文本会更容易。

要进行实际的抓取，前面的问题可以为您指出一些有用的方向。

1 回答 1