问题标签 [html-treebuilder]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Perl 在字符实体引用处拆分字符串
快速 Perl 问题,希望有一个简单的答案。我正在尝试对包含不间断空格 (
) 的字符串执行拆分。这是在阅读html
页面后使用HTML::TreeBuilder::XPath
并检索所需的字符串$titleString = $tree->findvalue('/html/head/title')
下面粘贴的是原始字符串,下面是打印的字符串:
我曾尝试与原版分开$titleString
,@parts = split('\?',$titleString);
也与原版分开nbsp
,但都没有奏效。我的预感是要在某处添加一段简单的编码代码?
HTML 代码:
perl - 循环内的 HTML::TreeBuilder
我正在尝试从几个 HTML 文件中删除所有表格元素。
以下代码在单个文件上完美运行,但在尝试自动化该过程时,它返回错误
无法对未定义的值调用方法“look_down”
请问您有什么解决办法吗?
这是代码:
perl - HTML::TreeBuilder::XPath 结果中缺少最后一个标签
上面的代码打印出搜索到的 HTML 元素,但它缺少最终</p>
标记。为什么?这是故意的还是模块中的错误?
string - HTML::TreeBuilder::XPath findvalue 返回值的串联
HTML::TreeBuilder::XPath中的findvalue
函数返回查询找到的任何值的串联。xpath
为什么要这样做,这些值的串联如何对任何人有用?
perl - Perl Mechanize 识别特定 div 标签内 span 标签之间的内容
Perl WWW::Mechanize::Firefox 已成功检索网页内容,并存储在标量变量$content
中。
在检查中$content
,我有兴趣识别和保存.span tags
table
有很多我不感兴趣的课程。
尝试#1 没有成功。
第 2 次尝试没有成功。
感兴趣的 HTML 表是:
选择(设置焦点)一个特定table
的(它们可能是$content
变量内的多个表)并将文本之间的文本保存span tags
到数组(要传递给下一个过程 - 插入到数据库表中)的最佳方法是什么)?
我还想强调一点:
- 有时,文本位于两(双)组
span tags
. - 没有表格标题行(或
th
标签)。
html - TreeBuilder 获取嵌入节点
基本上,我需要在 HTML 代码中获取所有这些人的姓名和电子邮件。
我知道如何将 treebuilder 与节点等一起使用,并且我在我的一些脚本中使用了这段代码。
我打算对这个函数使用相同的代码,但我意识到我没有太多要搜索的东西,因为<td>
标签在脚本中的许多其他地方。我确信有更好的方法来解决这个问题,但我似乎找不到它。
链接到 HTML 代码: http: //pastebin.com/qLwu80ZW
我的代码:https ://pastebin.com/wGb0eXmM
注意:我确实尽可能多地在谷歌上查看,但我不太确定我应该搜索什么。
perl - 没有从 HTML::TreeBuilder 获得输出
我试图从大约 3,000 个 HTML 文件中获取一大堆值并将它们保存到电子表格中。
我
HTML::TreeBuilder
用来处理 HTML 并使用
Spreadsheet::WriteExcel
.
但是我的脚本没有成功获取值。我懂了
在电子表格第 63 行的连接 (.) 或字符串中使用未初始化的值 $val。
我可能做错了什么?
这是我的 HTML 文件在pastebin.com
. 它太大而无法在问题中发布。
我的 Perl 代码
新脚本:
perl - 为什么 HTML::Element 中的look_down方法找不到元素?
下面的代码显示 TreeBuilder 方法look_down 找不到“section”元素。为什么?
输出:找到的 div 元素数 = 1 找到的部分元素数 = 0
dom - 由 br 连接的 XPath 节点文本
如何通过 br 再次加入 br 标签之间的文本节点。
这是xml代码
我需要让所有文本节点 text2 到由 br 标签或 \n\n 加入的 textxx。
我可以使用 //div/text()[position()>1] 获取所有文本,但没有任何分隔符加入,但结果如下:
虽然我想要这样:
只是我需要保留 br 标签。我正在使用 Perl HTML::TreeBuilder::LibXML 模块。
perl - 如何使用 HTML::TreeBuilder::XPath 循环 findnodes() 的结果
我有我的脚本来监控一些 Facebook 页面。由于 Facebook API 在 2019 年 4 月 4 日禁止了页面公共访问权限。我需要通过 xpath 方法解析内容。
每个 Facebook 帖子都由div[contains(@class,"userContentWrapper")]
. 我想一一循环帖子以找到所需的数据。
我不知道为什么要在每个帖子$message = $post->findvalue('//div[@data-testid="post_message"]//p');
中显示所有文本。<p>