下载 URL 列表并仅提取文本内容的好工具或工具集是什么?蜘蛛不是必需的,但可以控制下载文件名,线程将是一个额外的好处。
平台是linux。
下载 URL 列表并仅提取文本内容的好工具或工具集是什么?蜘蛛不是必需的,但可以控制下载文件名,线程将是一个额外的好处。
平台是linux。
Python Beautiful Soup允许您构建一个不错的提取器。
我知道 w3m 可用于呈现 html 文档并将文本内容放入文本文件 w3m www.google.com > file.txt 例如。
对于其余部分,我确信可以使用 wget。
在 Sourceforge 上寻找 PHP 的简单 HTML DOM 解析器。使用它来解析您使用 CURL 下载的 HTML。每个 DOM 元素都有一个“纯文本”属性,它应该只给你文本。很长一段时间以来,我在很多应用程序中都非常成功地使用了这种组合。
PERL(实用提取和报告语言)是一种非常适合此类工作的脚本语言。http://search.cpan.org/包含许多具有所需功能的模块。
使用 wget 下载所需的 html,然后在输出文件上运行 html2text。