1

有人知道一些开源工具来解析 html 页面、过滤广告、JS 等以获取标题、文本。我的应用程序的前端基于 LAMP。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。

我知道一些工具:Heritrix、Nutch。但似乎它们是爬虫。

谢谢。约瑟夫

4

1 回答 1

0

这取决于网页中的“文本”是什么意思。我做了类似的事情,使用 apache HttpClient 库抓取网页,然后使用 dom4j 查找要从中提取文本的特定标签。但实际上你确实需要与谷歌等搜索引擎使用相同类型的爬虫。您正在模拟他们在抓取网站时执行的基本步骤。提取信息。如果您更详细地了解要从页面中检索的信息类型,将会很有帮助。

于 2010-09-16T17:26:48.760 回答