html - 在 HTML 标签 Perl 中抓取数据

Question

我正在写一个网络爬虫，并且是 Perl 新手。我HTML::TreeBuilder用来获取我需要的数据，但我遇到了一个我不知道如何处理的案例。这是一些示例 HTML：

<div class="anything" val="20" name="matchup">someUniqueData</div>

我想val从这个 HTML 标记中提取。我一直在使用findvalues()我的大部分工作，但我不知道这是否可以从内部标签中提取数据。我没有成功地掩盖了文档。这种刮擦有简单的解决方案吗？

score 3 · Accepted Answer

您需要（使用HTML::TreeBuilder::XPath）：

my ($val) = $tree->findvalues('//div[@class="anything"]/@val');

1 回答 1