问题标签 [html-treebuilder]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
517 浏览

perl - Perl 在字符实体引用处拆分字符串  

快速 Perl 问题,希望有一个简单的答案。我正在尝试对包含不间断空格 (  ) 的字符串执行拆分。这是在阅读html页面后使用HTML::TreeBuilder::XPath并检索所需的字符串$titleString = $tree->findvalue('/html/head/title')

下面粘贴的是原始字符串,下面是打印的字符串:

我曾尝试与原版分开$titleString@parts = split('\?',$titleString);也与原版分开nbsp,但都没有奏效。我的预感是要在某处添加一段简单的编码代码?

HTML 代码:

0 投票
1 回答
173 浏览

perl - 循环内的 HTML::TreeBuilder

我正在尝试从几个 HTML 文件中删除所有表格元素。

以下代码在单个文件上完美运行,但在尝试自动化该过程时,它返回错误

无法对未定义的值调用方法“look_down”

请问您有什么解决办法吗?

这是代码:

0 投票
2 回答
168 浏览

perl - HTML::TreeBuilder::XPath 结果中缺少最后一个标签

上面的代码打印出搜索到的 HTML 元素,但它缺少最终</p>标记。为什么?这是故意的还是模块中的错误?

0 投票
2 回答
308 浏览

string - HTML::TreeBuilder::XPath findvalue 返回值的串联

HTML::TreeBuilder::XPath中的findvalue函数返回查询找到的任何值的串联。xpath

为什么要这样做,这些值的串联如何对任何人有用?

0 投票
1 回答
431 浏览

perl - Perl Mechanize 识别特定 div 标签内 span 标签之间的内容

Perl WWW::Mechanize::Firefox 已成功检索网页内容,并存储在标量变量$content中。

在检查中$content,我有兴趣识别和保存.span tagstable

有很多我不感兴趣的课程。

尝试#1 没有成功。

第 2 次尝试没有成功。

感兴趣的 HTML 表是:

选择(设置焦点)一个特定table的(它们可能是$content变量内的多个表)并将文本之间的文本保存span tags到数组(要传递给下一个过程 - 插入到数据库表中)的最佳方法是什么)?

我还想强调一点:

  1. 有时,文本位于两(双)组span tags.
  2. 没有表格标题行(或th标签)。
0 投票
1 回答
94 浏览

html - TreeBuilder 获取嵌入节点

基本上,我需要在 HTML 代码中获取所有这些人的姓名和电子邮件。

我知道如何将 treebuilder 与节点等一起使用,并且我在我的一些脚本中使用了这段代码。

我打算对这个函数使用相同的代码,但我意识到我没有太多要搜索的东西,因为<td>标签在脚本中的许多其他地方。我确信有更好的方法来解决这个问题,但我似乎找不到它。

链接到 HTML 代码: http: //pastebin.com/qLwu80ZW

我的代码:https ://pastebin.com/wGb0eXmM

注意:我确实尽可能多地在谷歌上查看,但我不太确定我应该搜索什么。

0 投票
2 回答
284 浏览

perl - 没有从 HTML::TreeBuilder 获得输出

我试图从大约 3,000 个 HTML 文件中获取一大堆值并将它们保存到电子表格中。

HTML::TreeBuilder用来处理 HTML 并使用 Spreadsheet::WriteExcel.

但是我的脚本没有成功获取值。我懂了

在电子表格第 63 行的连接 (.) 或字符串中使用未初始化的值 $val。

我可能做错了什么?

这是我的 HTML 文件在pastebin.com. 它太大而无法在问题中发布。

我的 Perl 代码

新脚本:

0 投票
2 回答
233 浏览

perl - 为什么 HTML::Element 中的look_down方法找不到
元素?

下面的代码显示 TreeBuilder 方法look_down 找不到“section”元素。为什么?

输出:找到的 div 元素数 = 1 找到的部分元素数 = 0

0 投票
2 回答
171 浏览

dom - 由 br 连接的 XPath 节点文本

如何通过 br 再次加入 br 标签之间的文本节点。

这是xml代码

我需要让所有文本节点 text2 到由 br 标签或 \n\n 加入的 textxx。

我可以使用 //div/text()[position()>1] 获取所有文本,但没有任何分隔符加入,但结果如下:

虽然我想要这样:

只是我需要保留 br 标签。我正在使用 Perl HTML::TreeBuilder::LibXML 模块。

0 投票
1 回答
185 浏览

perl - 如何使用 HTML::TreeBuilder::XPath 循环 findnodes() 的结果

我有我的脚本来监控一些 Facebook 页面。由于 Facebook API 在 2019 年 4 月 4 日禁止了页面公共访问权限。我需要通过 xpath 方法解析内容。

每个 Facebook 帖子都由div[contains(@class,"userContentWrapper")]. 我想一一循环帖子以找到所需的数据。

我不知道为什么要在每个帖子$message = $post->findvalue('//div[@data-testid="post_message"]//p'); 中显示所有文本。<p>