0

大家好,我有一个文件夹,里面装满了要转换为文本文件的 html 文件。我在 ubuntu 平台上工作,不幸的是 lynx --dump 没有为我安装。有没有其他方法可以将 html 文件转换为文本文件?请帮忙!提前致谢。

4

1 回答 1

0

这个问题被标记python了,所以我的第一选择是 Aaron Swartz 的html2text。它以降价格式生成测试。

BeautifulSoup也可以使用 Python 解决方案。

如果你喜欢perl,这里有一个perl将 html 转换为文本的简单脚本:

#!/usr/bin/perl -w

use HTML::Parse;
use HTML::FormatText;

my $file = $ARGV[0];
if (not -r $file) {
    die "ERROR: File ($file) is not readable\n";
}

my $html = do { local $/; open(I,$file); <I> };
my $plain = HTML::FormatText->new->format(parse_html($html) );
print $plain;
于 2015-02-02T01:32:11.707 回答