有人知道一些开源工具来解析 html 页面、过滤广告、JS 等以获取标题、文本。我的应用程序的前端基于 LAMP。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。
我知道一些工具:Heritrix、Nutch。但似乎它们是爬虫。
谢谢。约瑟夫
有人知道一些开源工具来解析 html 页面、过滤广告、JS 等以获取标题、文本。我的应用程序的前端基于 LAMP。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。
我知道一些工具:Heritrix、Nutch。但似乎它们是爬虫。
谢谢。约瑟夫