问题标签 [html-treebuilder]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

33 问题

0 投票

1 回答

517 浏览

perl - Perl 在字符实体引用处拆分字符串

快速 Perl 问题，希望有一个简单的答案。我正在尝试对包含不间断空格 (  ) 的字符串执行拆分。这是在阅读html页面后使用HTML::TreeBuilder::XPath并检索所需的字符串$titleString = $tree->findvalue('/html/head/title')

下面粘贴的是原始字符串，下面是打印的字符串：

我曾尝试与原版分开$titleString，@parts = split('\?',$titleString);也与原版分开nbsp，但都没有奏效。我的预感是要在某处添加一段简单的编码代码？

HTML 代码：

perl encoding character-entities html-treebuilder

2015-10-06T14:43:04.437

0 投票

1 回答

173 浏览

perl - 循环内的 HTML::TreeBuilder

我正在尝试从几个 HTML 文件中删除所有表格元素。

以下代码在单个文件上完美运行，但在尝试自动化该过程时，它返回错误

无法对未定义的值调用方法“look_down”

请问您有什么解决办法吗？

这是代码：

perl foreach html-treebuilder

2016-01-31T17:23:28.260

0 投票

2 回答

168 浏览

perl - HTML::TreeBuilder::XPath 结果中缺少最后一个标签

上面的代码打印出搜索到的 HTML 元素，但它缺少最终</p>标记。为什么？这是故意的还是模块中的错误？

perl xpath mechanize html-treebuilder

2016-05-31T02:05:31.517

0 投票

2 回答

308 浏览

string - HTML::TreeBuilder::XPath findvalue 返回值的串联

HTML::TreeBuilder::XPath中的findvalue函数返回查询找到的任何值的串联。xpath

为什么要这样做，这些值的串联如何对任何人有用？

string perl xpath concatenation html-treebuilder

2016-07-12T05:27:38.227

0 投票

1 回答

431 浏览

perl - Perl Mechanize 识别特定 div 标签内 span 标签之间的内容

Perl WWW::Mechanize::Firefox 已成功检索网页内容，并存储在标量变量$content中。

在检查中$content，我有兴趣识别和保存.span tagstable

有很多我不感兴趣的课程。

尝试#1 没有成功。

第 2 次尝试没有成功。

感兴趣的 HTML 表是：

选择（设置焦点）一个特定table的（它们可能是$content变量内的多个表）并将文本之间的文本保存span tags到数组（要传递给下一个过程 - 插入到数据库表中）的最佳方法是什么)?

我还想强调一点：

有时，文本位于两（双）组span tags.
没有表格标题行（或th标签）。

perl www-mechanize-firefox html-tableextract html-treebuilder

2017-03-13T18:51:54.547

0 投票

1 回答

94 浏览

html - TreeBuilder 获取嵌入节点

基本上，我需要在 HTML 代码中获取所有这些人的姓名和电子邮件。

我知道如何将 treebuilder 与节点等一起使用，并且我在我的一些脚本中使用了这段代码。

我打算对这个函数使用相同的代码，但我意识到我没有太多要搜索的东西，因为<td>标签在脚本中的许多其他地方。我确信有更好的方法来解决这个问题，但我似乎找不到它。

链接到 HTML 代码： http: //pastebin.com/qLwu80ZW

我的代码：https ://pastebin.com/wGb0eXmM

注意：我确实尽可能多地在谷歌上查看，但我不太确定我应该搜索什么。

html perl module html-treebuilder

2017-03-24T19:48:23.527

0 投票

2 回答

284 浏览

perl - 没有从 HTML::TreeBuilder 获得输出

我试图从大约 3,000 个 HTML 文件中获取一大堆值并将它们保存到电子表格中。

我 HTML::TreeBuilder用来处理 HTML 并使用 Spreadsheet::WriteExcel.

但是我的脚本没有成功获取值。我懂了

在电子表格第 63 行的连接 (.) 或字符串中使用未初始化的值 $val。

我可能做错了什么？

这是我的 HTML 文件在pastebin.com. 它太大而无法在问题中发布。

我的 Perl 代码

新脚本：

perl html-treebuilder

2017-04-03T19:31:42.657

0 投票

2 回答

233 浏览

perl - 为什么 HTML::Element 中的look_down方法找不到
元素？

下面的代码显示 TreeBuilder 方法look_down 找不到“section”元素。为什么？

输出：找到的 div 元素数 = 1 找到的部分元素数 = 0

perl html-treebuilder

2019-07-16T23:19:50.677

0 投票

2 回答

171 浏览

dom - 由 br 连接的 XPath 节点文本

如何通过 br 再次加入 br 标签之间的文本节点。

这是xml代码

我需要让所有文本节点 text2 到由 br 标签或 \n\n 加入的 textxx。

我可以使用 //div/text()[position()>1] 获取所有文本，但没有任何分隔符加入，但结果如下：

虽然我想要这样：

只是我需要保留 br 标签。我正在使用 Perl HTML::TreeBuilder::LibXML 模块。

dom xpath libxml2 html-treebuilder

2019-08-29T18:07:26.367

0 投票

1 回答

185 浏览

perl - 如何使用 HTML::TreeBuilder::XPath 循环 findnodes() 的结果

我有我的脚本来监控一些 Facebook 页面。由于 Facebook API 在 2019 年 4 月 4 日禁止了页面公共访问权限。我需要通过 xpath 方法解析内容。

每个 Facebook 帖子都由div[contains(@class,"userContentWrapper")]. 我想一一循环帖子以找到所需的数据。

我不知道为什么要在每个帖子$message = $post->findvalue('//div[@data-testid="post_message"]//p'); 中显示所有文本。<p>

perl xpath html-treebuilder

2019-09-05T18:08:41.547

1 2 3 4 5 6 7 8 9 10