html-parsing - 使用 Perl 发现 HTML 页面上表格的深度和数量

Question

我有许多下载网页的本地副本。这些页面几乎可以肯定只有几种不同类型的表格布局，但在寻找提取数据之前，我首先要打印出每个页面上存在的表格的深度和数量。

使用HTML::TableExtract->new( depth => $d, count => $c )I 可以在合理的范围内迭代$d，$c直到我一无所获……一种有效但看起来很糟糕的方法，我确信有更好的方法。请问，我应该使用与 HTML::TableExtract 不同的模块，还是应该使用 TableExtract 做一些更明智的事情？

这就是不经常使用 Perl 的问题，但要确保它是特定工作的正确工具！

score 0 · Accepted Answer

我发现我的问题源于我对count如何depth在HTML::TableExtract->new(). 我见过的所有示例都使用了headers=>参数，或者使用了depth=>and的组合count=>。事实上，这两种说法都没有必要。我真正需要的是使用

$te = HTML::TableExtract->new();

没有对该方法的任何参数new()，然后使用 $te->tables_report()它来准确地给我我正在寻找的那种列表。

难怪我没有得到任何答案！

html-parsing - 使用 Perl 发现 HTML 页面上表格的深度和数量

1 回答 1

Related

Reference