问题标签 [html-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13023 浏览

php - 使用 PHP 匹配 html 标签之间的所有内容

我有一个脚本,它在一个名为 $content 的变量中返回以下内容

但是,我需要将body标签之间的所有内容放在一个名为matches的数组中

我做了以下来匹配body标签之间的东西

但是 $mathces 数组是空的,我怎样才能让它返回 body 标记内的所有内容

0 投票
1 回答
986 浏览

xml - 使用 XPath 选择下一个链接

我必须编写一个 XPath 表达式来获取 HTML 波纹管中锚标记的 href 属性,该属性紧跟标记为“当前页面”的标记(在示例中为 #notimportant/2)。

我想过从 //a[@class='current-page']/../next-sibling-of-first-node/@href 之类的东西开始,但我被困在这里......

有人可以帮我解决这个问题吗?我搜索了一下,但 XPath 不是我最喜欢的技能(不,我不能使用 jQuery。它不是 web 应用程序)。

0 投票
1 回答
351 浏览

html - 将本地 .html 文件的字符串加载到表格视图单元格中

iPhone 操作系统开发

我需要将 UITableView 单元格的名称设置为从本地“file.html”文件中获取的字符串。我知道我需要解析 HTML,但目前我并不担心。

如果有人可以向我展示一些可以设置 html 文件中第一行文本并将其设置为 NSString 变量的快速代码,我想我可以解决剩下的问题。

我真的很感激任何帮助。谢谢。

0 投票
6 回答
4536 浏览

php - CodeIgniter:帮助从网页获取元标记的类/库?

我正在使用代码点火器。我想我使用哪个 php 框架并不重要。

但是在我编写自己的课程之前,是否已经编写了另一个课程,允许用户获取任何站点的页面标题和元标记(关键字、描述)……如果有的话。

任何能够做到这一点的 PHP 类都会很棒。

谢谢大家

0 投票
3 回答
427 浏览

php - 用于 PHP 的 Html 解析器,如 Java

我一直在开发 Java 程序,通过使用各种 html 解析器(如 Jericho、NekoHtml 等)来解析网页的 html 源代码......

现在我想用 PHP 语言开发解析器。所以在开始之前,我想知道是否有任何可用的 html 解析器可以与 PHP 一起使用来解析 html 代码

0 投票
2 回答
1698 浏览

php - PHP DOMDocument,查找特定元素

我正在寻找使用 PHP DOMDocument 的 HTML 文档中特定元素的特定属性。

具体来说,有一个具有唯一类集的 div,其中只有一个跨度。我需要检索该 span 元素的样式属性。

例子:

对于此示例,由于 uniqueClass 是文档中该类的唯一实例,我需要检索字符串:

文本对齐:居中;

0 投票
1 回答
596 浏览

html - j2me 读取 html 在 WTK 和设备之间有所不同

我在 J2ME 中构建了一个移动应用程序,它从网站读取数据。在 WTK(无线工具包)中,现在一切正常,但是当我在我的移动(诺基亚)设备上测试相同的应用程序时,它的行为有所不同:它返回了另一种类型的 html:它不显示<hr>标签,而是显示<hr/>标签。

我尝试读取的远程网站可能对不同的客户端表现不同,但我认为情况并非如此。

这会是什么?每个客户端的编码类型不同吗?我不熟悉这个。

0 投票
1 回答
1244 浏览

c# - 如何使用 HTML Agility Pack 删除部分(或全部)HTML 元素和/或属性?

使用HTML Agility Pack,如何从 HTML 块中删除所有 HTML 属性、元素等,结果就像我将其粘贴到记事本中一样?

此外,我需要删除所有格式,但我需要保留 UL/LI 和 B 标签。

0 投票
1 回答
3979 浏览

c# - 使用 HTML Agility Pack 抓取元标记和评论

我一直在寻找有关使用 HTML Agility Pack 的教程,因为它似乎可以完成我想要它做的所有事情,但对于如此强大的工具来说,互联网上似乎很少有关于它的噪音。

我正在编写一个简单的方法,它将根据名称检索任何给定的标签:

这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止,我有以下代码:

我希望能够首先从 HTML 中删除所有注释,然后根据其名称返回正确的标签。如果可能的话,我还想根据属性返回某些元标记,例如机器人。我对 xpath 不是很好,所以任何帮助都会很好。

任何帮助将非常感激。

0 投票
1 回答
3363 浏览

.net - 将 HTML 页面加载为 XML

我用它来通过 XML 加载 HTML 页面

或者

但我遇到了一些错误,例如:

  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 2, position 14;
  • '>' is an unexpected token. The expected token is '"' or '''. Line 1, position 62;
  • Expecting an internal subset or the end of the DOCTYPE declaration. Line 5, position 20.

当我解决一个错误时,所有这些错误都出现在我身上,另一个错误出现了。

我在问,我是使用完美的方式来加载这个文件还是有另一种方式?