我正在使用通过使用然后从查找方法返回的字符串中提取文本部分HTML::TreeBuilder
来提取 url 的内容。tree->lookdown
我的问题是当我阅读该文本并将其写入文件时显示为垃圾。我无法在这方面取得进展。
我的示例代码:
use HTML::TreeBuilder;
use HTML::Element;
use utf8;
$url = $ARGV[0];
$page = `wget -qO - "$url"| tee data.txt`;
#print "iam $page\n";
my $tree = HTML::TreeBuilder->new( );
$tree->parse_file('data.txt');
my @story = $tree->look_down(
_tag => 'div',
class => 'storydescription'
);
my @title = $tree->look_down(
_tag => 'title'
);
open(OUT,">","story.txt") or die"Cannot open story.txt:$!\n";
binmode(OUT,":utf8");
foreach my $story(@story) {
print OUT $story->as_text;
}
close(OUT);
我已经为输出文件句柄尝试了 binmode,但它没有用,并且 Unicode 以外的文本(例如 ascii 字符)可以正确打印到文件中。