0

我有许多下载网页的本地副本。这些页面几乎可以肯定只有几种不同类型的表格布局,但在寻找提取数据之前,我首先要打印出每个页面上存在的表格的深度和数量。

使用HTML::TableExtract->new( depth => $d, count => $c )I 可以在合理的范围内迭代$d$c直到我一无所获……一种有效但看起来很糟糕的方法,我确信有更好的方法。请问,我应该使用与 HTML::TableExtract 不同的模块,还是应该使用 TableExtract 做一些更明智的事情?

这就是不经常使用 Perl 的问题,但要确保它是特定工作的正确工具!

4

1 回答 1

0

我发现我的问题源于我对count如何depthHTML::TableExtract->new(). 我见过的所有示例都使用了headers=>参数,或者使用了depth=>and的组合count=>。事实上,这两种说法都没有必要。我真正需要的是使用

$te = HTML::TableExtract->new();

没有对该方法的任何参数new(),然后使用 $te->tables_report()它来准确地给我我正在寻找的那种列表。

难怪我没有得到任何答案!

于 2013-06-03T11:01:07.287 回答