问题标签 [html-treebuilder]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
682 浏览

regex - 或匹配 HTML::TreeBuilder 的 look_down 功能

尝试将tr具有 a 的项目classeveor开头的前三个字母匹配day。这是我的尝试:

只是好奇,什么样的物体在里面@stuff


这个可以吗?见下文:

0 投票
2 回答
59 浏览

arrays - 试图弄清楚如何将单独的链接列表的每个链接中包含的特定链接推送到数组中


大概的概念


这是我正在使用的一个片段:

希望很明显,我绝望地试图做的是将在每个链接列表中找到的链接结尾推入一个名为@temp_stuff. 因此,当访问时,中的第一个链接@blarg_links具有大于或等于 1 个foo带有关联bar类的标记,当被操作时,该标记as_HTML将匹配我想要的href等式中的内容,然后泵入一个链接数组,其中包含我真正的数据之后……这有意义吗?


实际数据



nb - 我想使用 HTML::TreeBuilder。我知道替代方案。


0 投票
0 回答
63 浏览

html - WebKit - 按位置获取 HTML 元素

WebKit 中是否有办法通过其位置获取 HTML 元素(来自 DOM)?即说我有一个 X,Y 坐标,我想“窥探”它背后的元素。

我正在寻找 C++ API(在 WebKit 中),而不是 JavaScript 方式。

谢谢。

0 投票
1 回答
157 浏览

regex - Perl HTML:TreeBuilder标签不等于

我正在使用HTML::TreeBuilder以从 html 文件中提取数据。我需要做的是:

所以我正在寻找一个不等于 'index.html' 和另一个标签的 href,但显然!=>不是HTML::TreeBuilder. 我怎样才能实现这样的目标?我可以使用正则表达式吗?

BR

0 投票
2 回答
96 浏览

perl - Xpath won't fiind id

I'm failing to get a node by its id. The code is straight forward and should be self-explaining.

The code above prints:

How can I select a node by its ID?

Thanks in advance.

0 投票
2 回答
287 浏览

perl - 如何使用 HTML::TreeBuilder 解析 html?

这是我要解析的代码

这是我的算法:

它获取模式<key> : <value>并修剪垃圾,如<script>or <a>...</a>。我想改进它以获得<h2>...</h2>标题和所有<p>...<p>块,以便我可以添加一些 LaTeX 标签。

有什么线索吗?

提前致谢。

0 投票
1 回答
100 浏览

perl - WWW::Mechanize 提取帮助 - PERL

我正在尝试自动提取在网站上找到的成绩单。由于该网站在描述列表中对采访进行了格式化,因此可以在 dl 标记之间找到整个成绩单。下面的脚本允许我搜索站点并以纯文本格式提取文本,但我实际上正在寻找它以包含 dl 标签之间的所有内容,即 dd、dt 等。这将使我们能够为面试开发我们自己的 CSS。

关于该页面需要注意的是,在采访过程中的不同点插入了中断语句。我们发现一些使用配对从网页中提取信息的工具发现这是一个问题,因为它只在 break 语句之前抓取信息。如果您向我指出不同的方向,请记住一些事情。这是我到目前为止所拥有的。

如果有一个工具可以打印我所拥有的,只是这次是 HTML,请告诉我!

0 投票
1 回答
263 浏览

perl - 用 Perl 抓取 HTML 文件,只返回内容,按顺序

使用 HTML::TreeBuilder - 或 Mojo::DOM - 我想抓取内容但保持有序,以便我可以将文本值放入数组中(然后用变量替换文本值模板目的)

但这在 TreeBuilder

不返回顺序——当然散列是没有顺序的。那么,如何从根向下访问树并保持返回值的顺序呢?递归地走树?本质上,我想对每个元素都使用“as_text”方法。(遵循这个好主意,但我需要所有元素)

0 投票
2 回答
598 浏览

perl - 使用 TreeBuilder 在 Perl 中提取链接

我正在编写一个脚本来将一堆信息提取到一个 HTML 文件中。但是,我在从相关页面中仅提取一组特定链接时遇到了一些困难。

这是网站的粗略结构。在 innercontent div 和我在下面显示的内容之间还有一些其他的标题和段落。

现在在 div ID“innercontent”中找到了多个链接,所以我正在寻找一种方法来匹配字符串或仅获取我想要的链接。请记住,我要获取的所有链接都是 .pdf 格式,所以这可能会有所帮助。我确定 TreeBuilder 可以根据我所做的研究来处理这个问题。这是我正在尝试的两种方法。我宁愿使用第一个来解决它。

我意识到后一种方法只是要在整个页面中搜索链接,但我将其包括在内以防万一该方法更有效,或者这两种方法可以结合使用。

任何帮助或建议将不胜感激!

0 投票
1 回答
177 浏览

perl - unicode 文本的 Tree Builder 问题

我正在使用通过使用然后从查找方法返回的字符串中提取文本部分HTML::TreeBuilder来提取 url 的内容。tree->lookdown我的问题是当我阅读该文本并将其写入文件时显示为垃圾。我无法在这方面取得进展。

我的示例代码:

我已经为输出文件句柄尝试了 binmode,但它没有用,并且 Unicode 以外的文本(例如 ascii 字符)可以正确打印到文件中。