8

所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。

我想知道您是否可以为从网页中提取文本的 java 库/方法提供任何建议?

我也发现了这个产品: http ://www.diffbot.com/products/automatic/article/ 想知道你是否认为这是要走的路?如果是这样,有人可以将我指向一个 java 实现 - 尽管它显然存在,但似乎找不到一个。

非常感谢

澄清 - 我更多的是寻找一种算法/库/方法来检测可能是一篇文章的文本块在 html dom 树中的位置。喜欢 Safari 的阅读器功能。ps如果您认为这在python之类的东西中更容易做到,那就说-尽管我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本-尽管会仅当您建议 Python 是要走的路时才这样做。

4

3 回答 3

3

看看Apache Tika。它旨在与爬虫一起使用,可以为您提取文本和元数据。您还可以选择各种输出类型。

于 2013-12-25T00:17:42.363 回答
3

我找到了一个评价极高的开源解决方案。 https://code.google.com/p/boilerpipe/

不同文本提取算法的回顾:http: //tomazkovacic.com/blog/122/evaluation-text-extraction-algorithms/

似乎 diffbot 确实表现得很好,但不是开源的。所以在开源方面,锅炉管道可能是要走的路。

于 2013-12-25T00:51:39.390 回答
-1

这不是您可以获得的所有格式错误的 HTML 的答案,但大多数时候jtidy可以很好地清理 HTML 并为您提供访问各种 DOM 节点的界面,以及访问这些节点内的文本。

于 2013-12-24T23:41:36.257 回答