问题标签 [html-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 使用 PHP 匹配 html 标签之间的所有内容
我有一个脚本,它在一个名为 $content 的变量中返回以下内容
但是,我需要将body标签之间的所有内容放在一个名为matches的数组中
我做了以下来匹配body标签之间的东西
但是 $mathces 数组是空的,我怎样才能让它返回 body 标记内的所有内容
xml - 使用 XPath 选择下一个链接
我必须编写一个 XPath 表达式来获取 HTML 波纹管中锚标记的 href 属性,该属性紧跟标记为“当前页面”的标记(在示例中为 #notimportant/2)。
我想过从 //a[@class='current-page']/../next-sibling-of-first-node/@href 之类的东西开始,但我被困在这里......
有人可以帮我解决这个问题吗?我搜索了一下,但 XPath 不是我最喜欢的技能(不,我不能使用 jQuery。它不是 web 应用程序)。
html - 将本地 .html 文件的字符串加载到表格视图单元格中
iPhone 操作系统开发
我需要将 UITableView 单元格的名称设置为从本地“file.html”文件中获取的字符串。我知道我需要解析 HTML,但目前我并不担心。
如果有人可以向我展示一些可以设置 html 文件中第一行文本并将其设置为 NSString 变量的快速代码,我想我可以解决剩下的问题。
我真的很感激任何帮助。谢谢。
php - CodeIgniter:帮助从网页获取元标记的类/库?
我正在使用代码点火器。我想我使用哪个 php 框架并不重要。
但是在我编写自己的课程之前,是否已经编写了另一个课程,允许用户获取任何站点的页面标题和元标记(关键字、描述)……如果有的话。
任何能够做到这一点的 PHP 类都会很棒。
谢谢大家
php - 用于 PHP 的 Html 解析器,如 Java
我一直在开发 Java 程序,通过使用各种 html 解析器(如 Jericho、NekoHtml 等)来解析网页的 html 源代码......
现在我想用 PHP 语言开发解析器。所以在开始之前,我想知道是否有任何可用的 html 解析器可以与 PHP 一起使用来解析 html 代码
php - PHP DOMDocument,查找特定元素
我正在寻找使用 PHP DOMDocument 的 HTML 文档中特定元素的特定属性。
具体来说,有一个具有唯一类集的 div,其中只有一个跨度。我需要检索该 span 元素的样式属性。
例子:
对于此示例,由于 uniqueClass 是文档中该类的唯一实例,我需要检索字符串:
文本对齐:居中;
html - j2me 读取 html 在 WTK 和设备之间有所不同
我在 J2ME 中构建了一个移动应用程序,它从网站读取数据。在 WTK(无线工具包)中,现在一切正常,但是当我在我的移动(诺基亚)设备上测试相同的应用程序时,它的行为有所不同:它返回了另一种类型的 html:它不显示<hr>
标签,而是显示<hr/>
标签。
我尝试读取的远程网站可能对不同的客户端表现不同,但我认为情况并非如此。
这会是什么?每个客户端的编码类型不同吗?我不熟悉这个。
c# - 如何使用 HTML Agility Pack 删除部分(或全部)HTML 元素和/或属性?
使用HTML Agility Pack,如何从 HTML 块中删除所有 HTML 属性、元素等,结果就像我将其粘贴到记事本中一样?
此外,我需要删除所有格式,但我需要保留 UL/LI 和 B 标签。
c# - 使用 HTML Agility Pack 抓取元标记和评论
我一直在寻找有关使用 HTML Agility Pack 的教程,因为它似乎可以完成我想要它做的所有事情,但对于如此强大的工具来说,互联网上似乎很少有关于它的噪音。
我正在编写一个简单的方法,它将根据名称检索任何给定的标签:
这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止,我有以下代码:
我希望能够首先从 HTML 中删除所有注释,然后根据其名称返回正确的标签。如果可能的话,我还想根据属性返回某些元标记,例如机器人。我对 xpath 不是很好,所以任何帮助都会很好。
任何帮助将非常感激。
.net - 将 HTML 页面加载为 XML
我用它来通过 XML 加载 HTML 页面
或者
但我遇到了一些错误,例如:
Expecting an internal subset or the end of the DOCTYPE declaration. Line 2, position 14
;'>' is an unexpected token. The expected token is '"' or '''. Line 1, position 62
;Expecting an internal subset or the end of the DOCTYPE declaration. Line 5, position 20
.
当我解决一个错误时,所有这些错误都出现在我身上,另一个错误出现了。
我在问,我是使用完美的方式来加载这个文件还是有另一种方式?