4

下载 URL 列表并仅提取文本内容的好工具或工具集是什么?蜘蛛不是必需的,但可以控制下载文件名,线程将是一个额外的好处。

平台是linux。

4

6 回答 6

5

wget | html2ascii

注意:也可以调用 html2asciihtml2ahtml2text(我无法在网上找到合适的手册页)。

另见:lynx

于 2009-01-12T14:30:01.703 回答
3

Python Beautiful Soup允许您构建一个不错的提取器

于 2009-01-12T15:04:56.360 回答
0

我知道 w3m 可用于呈现 html 文档并将文本内容放入文本文件 w3m www.google.com > file.txt 例如。

对于其余部分,我确信可以使用 wget。

于 2009-01-12T14:31:16.410 回答
0

在 Sourceforge 上寻找 PHP 的简单 HTML DOM 解析器。使用它来解析您使用 CURL 下载的 HTML。每个 DOM 元素都有一个“纯文本”属性,它应该只给你文本。很长一段时间以来,我在很多应用程序中都非常成功地使用了这种组合。

于 2009-01-12T14:34:47.123 回答
0

PERL(实用提取和报告语言)是一种非常适合此类工作的脚本语言。http://search.cpan.org/包含许多具有所需功能的模块。

于 2009-01-12T14:36:41.360 回答
0

使用 wget 下载所需的 html,然后在输出文件上运行 html2text。

于 2009-01-12T14:40:37.813 回答