问题标签 [html-treebuilder]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
327 浏览

perl - HTML::TreeBuilder 是否以某种方式将嵌套在 BODY 标记下的所有表格元素压缩在一起?

我试图使用 HTML::TreeBuilder 解析一些网页的内容,然后进行类似 XPath 的手动遍历。

但我得到了一些非常奇怪的东西。

这是 Chrome 的开发者工具从网页生成的 X-Path:

最后一个内部表#9 是我需要的——更具体地说,是一个包含“点击查看”文本的单元格。

这是开发人员工具的屏幕截图 - 请注意 BODY 标签下只有一个表格:

在此处输入图像描述

如果您深入了解该 XPath,您将看到我寻找的元素(请注意,它实际上是表内表中的嵌套表 - 我包括了我寻找的 TD 元素):

在此处输入图像描述




但是,这就是 HTML::TreeBuilder 生成的(基本上,一个<body>包含 22 个标签的标签,其中大部分是<table>标签:

如您所见,BODY TAG 下的第 8 个表包含我想要的元素

0 投票
2 回答
946 浏览

javascript - perl 使用 HTML::Treebuilder 查找不同的元素 id

我正在尝试使用内置搜索功能中的网站从中收集数据,但无法弄清楚如何按下“搜索”按钮,因为它周围有一些 javascript,并且 id 会随着页面的每次新迭代而变化。

该网站部分的数据如下。

和我的代码

遗憾的是我的代码没有返回任何节点值。

提前谢谢了。

0 投票
1 回答
339 浏览

html - 在 Perl 中解析 HTML 时无法获取内容

我已经解决了这个问题:原来我使用 WWW::Mechanize 加载的页面使用 AJAX 加载其中的所有内容,<tbody>因此在我创建 $html 变量时不会加载它。现在我必须看看如何获​​得这个动态内容......


我正在尝试解析网页中表格的内容。<table>包含 a<thead><tbody>a 。当我从<tbody>表格的一部分中获取内容时,我发现它都不存在。我只得到里面的内容<thead>

我尝试了几种不同的方法,如下所示,所有这些方法都没有从<tbody>.

使用 HTML::TreeBuilder

使用 HTML::TableExtract

当我尝试执行print Dumper($table);表中的一个时,我表明我正在找到<table>并且只能看到<thead>or内部的表内容<tbody>以及对它的父级的引用,其中包含来自<thead>.

我可以不太关心<thead>我只需要表格内容中的内容<tbody>

我不确定我做错了什么以及从这里去哪里。

0 投票
2 回答
418 浏览

perl - 用 HTML::TreeBuilder 解析 html

我想解析 html 页面。使用提取徽章、描述和徽章类型

我的 perl 代码如下,

我正在尝试 a class="badge-name"使用以下代码提取和其他细节

此代码正在引发警告Wide character in print at ..

0 投票
2 回答
64 浏览

html - 需要建议使用 HTML-TreeBuilder-XPath findnodes() 方法一一打印匹配结果

我 在 Perl 中使用HTML-TreeBuilder-XPath解析 html 内容。我得到了我需要的数据的 xpath 位置。我面临的问题是,$html->findnodes()单个结果返回的 xpath 有几个匹配项,但我需要一一打印。需要一些建议。谢谢。

0 投票
1 回答
124 浏览

xml - 访问结构字段(XML 包)

我使用 HTMLTreeParser 获得了这个结构,我需要将文本包含在页面中

我正在寻找“p”块上的内容。我今天没有找到任何可以帮助我的东西。
那么,我怎样才能得到这些数据呢?

0 投票
1 回答
262 浏览

perl - 在 Perl TreeBuilder 和 XPath 中结合 Class 和 Nth-Child

我正在尝试获取 html 表中列的总和。该表的第一行是所有标题。第一行之后的每一行的每个单元格都有“正确”类,所以我打算使用该类作为选择器来忽略不必要的标题。但是,我只需要每行的第二个单元格。如何组合这两个选择器?这是正确的吗?

0 投票
1 回答
221 浏览

perl - 如何使用 HTML::Tree 获取 HTML 标签的值?

假设我有一个数组,其中包含 body 标记的内容,如下所示: print Dumper(\@array);

假设我想从@array 的内容中获取“div”标签的 id:

我这样做:

这适用于属性只有一个值的情况。但是我如何从@array 中的脚本标签中获取 866346569493123700 呢?

对此的任何帮助将不胜感激,因为我已经尝试了几个小时

0 投票
2 回答
282 浏览

perl - Perl从html文件中提取模式

我有一个充满链接的 .html 文件,我想提取没有 http:// 的域(所以只是链接的主机名部分,例如 blah.com)列出它们并删除重复项。

到目前为止,这就是我想出的-我认为问题在于我尝试传递 $tree 数据的方式

0 投票
1 回答
736 浏览

html - 使用 perl 将 HTML 表格转换为文本

我有一个 html 表格内容,我试图在 perl的帮助use HTML::TreeBuilder下将其转换为具有相同结构的文本。use HTML::FormatText我试过这个代码

预期输出是:

但我得到的输出是这样的:

我需要一些建议。