所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。
我想知道您是否可以为从网页中提取文本的 java 库/方法提供任何建议?
我也发现了这个产品: http ://www.diffbot.com/products/automatic/article/ 想知道你是否认为这是要走的路?如果是这样,有人可以将我指向一个 java 实现 - 尽管它显然存在,但似乎找不到一个。
非常感谢
澄清 - 我更多的是寻找一种算法/库/方法来检测可能是一篇文章的文本块在 html dom 树中的位置。喜欢 Safari 的阅读器功能。ps如果您认为这在python之类的东西中更容易做到,那就说-尽管我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本-尽管会仅当您建议 Python 是要走的路时才这样做。