java - 从网页中提取文本（例如文章）的最佳方法

Question

所以我正在尝试编写一个程序，它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。

我想知道您是否可以为从网页中提取文本的 java 库/方法提供任何建议？

我也发现了这个产品： http ://www.diffbot.com/products/automatic/article/ 想知道你是否认为这是要走的路？如果是这样，有人可以将我指向一个 java 实现 - 尽管它显然存在，但似乎找不到一个。

非常感谢

澄清 - 我更多的是寻找一种算法/库/方法来检测可能是一篇文章的文本块在 html dom 树中的位置。喜欢 Safari 的阅读器功能。ps如果您认为这在python之类的东西中更容易做到，那就说-尽管我的程序必须在Java中运行，因为它最终应该在服务器上运行（使用java框架）我可以尝试让它使用python脚本-尽管会仅当您建议 Python 是要走的路时才这样做。

score 3 · Accepted Answer

看看Apache Tika。它旨在与爬虫一起使用，可以为您提取文本和元数据。您还可以选择各种输出类型。

score 3 · Accepted Answer

我找到了一个评价极高的开源解决方案。 https://code.google.com/p/boilerpipe/

不同文本提取算法的回顾：http: //tomazkovacic.com/blog/122/evaluation-text-extraction-algorithms/

似乎 diffbot 确实表现得很好，但不是开源的。所以在开源方面，锅炉管道可能是要走的路。

score -1 · Accepted Answer

这不是您可以获得的所有格式错误的 HTML 的答案，但大多数时候jtidy可以很好地清理 HTML 并为您提供访问各种 DOM 节点的界面，以及访问这些节点内的文本。

java - 从网页中提取文本（例如文章）的最佳方法

3 回答 3

Related

Reference