大家好,我有一个文件夹,里面装满了要转换为文本文件的 html 文件。我在 ubuntu 平台上工作,不幸的是 lynx --dump 没有为我安装。有没有其他方法可以将 html 文件转换为文本文件?请帮忙!提前致谢。
问问题
927 次
1 回答
0
这个问题被标记python
了,所以我的第一选择是 Aaron Swartz 的html2text。它以降价格式生成测试。
BeautifulSoup也可以使用 Python 解决方案。
如果你喜欢perl
,这里有一个perl
将 html 转换为文本的简单脚本:
#!/usr/bin/perl -w
use HTML::Parse;
use HTML::FormatText;
my $file = $ARGV[0];
if (not -r $file) {
die "ERROR: File ($file) is not readable\n";
}
my $html = do { local $/; open(I,$file); <I> };
my $plain = HTML::FormatText->new->format(parse_html($html) );
print $plain;
于 2015-02-02T01:32:11.707 回答