问题标签 [html-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5774 问题

0 投票

3 回答

13023 浏览

php - 使用 PHP 匹配 html 标签之间的所有内容

我有一个脚本，它在一个名为 $content 的变量中返回以下内容

但是，我需要将body标签之间的所有内容放在一个名为matches的数组中

我做了以下来匹配body标签之间的东西

但是 $mathces 数组是空的，我怎样才能让它返回 body 标记内的所有内容

2010-02-02T08:59:50.547

0 投票

1 回答

986 浏览

xml - 使用 XPath 选择下一个链接

我必须编写一个 XPath 表达式来获取 HTML 波纹管中锚标记的 href 属性，该属性紧跟标记为“当前页面”的标记（在示例中为 #notimportant/2）。

我想过从 //a[@class='current-page']/../next-sibling-of-first-node/@href 之类的东西开始，但我被困在这里......

有人可以帮我解决这个问题吗？我搜索了一下，但 XPath 不是我最喜欢的技能（不，我不能使用 jQuery。它不是 web 应用程序）。

xml parsing xpath html-parsing

2010-02-04T10:47:55.250

0 投票

1 回答

351 浏览

html - 将本地 .html 文件的字符串加载到表格视图单元格中

iPhone 操作系统开发

我需要将 UITableView 单元格的名称设置为从本地“file.html”文件中获取的字符串。我知道我需要解析 HTML，但目前我并不担心。

如果有人可以向我展示一些可以设置 html 文件中第一行文本并将其设置为 NSString 变量的快速代码，我想我可以解决剩下的问题。

我真的很感激任何帮助。谢谢。

html uitableview html-parsing

2010-02-06T06:38:20.320

0 投票

6 回答

4536 浏览

php - CodeIgniter：帮助从网页获取元标记的类/库？

我正在使用代码点火器。我想我使用哪个 php 框架并不重要。

但是在我编写自己的课程之前，是否已经编写了另一个课程，允许用户获取任何站点的页面标题和元标记（关键字、描述）……如果有的话。

任何能够做到这一点的 PHP 类都会很棒。

谢谢大家

php codeigniter html-parsing meta-tags

2010-02-16T14:28:45.303

0 投票

3 回答

427 浏览

php - 用于 PHP 的 Html 解析器，如 Java

我一直在开发 Java 程序，通过使用各种 html 解析器（如 Jericho、NekoHtml 等）来解析网页的 html 源代码......

现在我想用 PHP 语言开发解析器。所以在开始之前，我想知道是否有任何可用的 html 解析器可以与 PHP 一起使用来解析 html 代码

php html-parsing

2010-02-17T14:54:44.373

0 投票

2 回答

1698 浏览

php - PHP DOMDocument，查找特定元素

我正在寻找使用 PHP DOMDocument 的 HTML 文档中特定元素的特定属性。

具体来说，有一个具有唯一类集的 div，其中只有一个跨度。我需要检索该 span 元素的样式属性。

例子：

对于此示例，由于 uniqueClass 是文档中该类的唯一实例，我需要检索字符串：

文本对齐：居中；

php html parsing html-parsing domdocument

2010-02-21T11:01:48.073

0 投票

1 回答

596 浏览

html - j2me 读取 html 在 WTK 和设备之间有所不同

我在 J2ME 中构建了一个移动应用程序，它从网站读取数据。在 WTK（无线工具包）中，现在一切正常，但是当我在我的移动（诺基亚）设备上测试相同的应用程序时，它的行为有所不同：它返回了另一种类型的 html：它不显示<hr>标签，而是显示<hr/>标签。

我尝试读取的远程网站可能对不同的客户端表现不同，但我认为情况并非如此。

这会是什么？每个客户端的编码类型不同吗？我不熟悉这个。

html parsing java-me html-parsing

2010-02-28T16:10:18.423

0 投票

1 回答

1244 浏览

c# - 如何使用 HTML Agility Pack 删除部分（或全部）HTML 元素和/或属性？

使用HTML Agility Pack，如何从 HTML 块中删除所有 HTML 属性、元素等，结果就像我将其粘贴到记事本中一样？

此外，我需要删除所有格式，但我需要保留 UL/LI 和 B 标签。

c#.net html-parsing

2010-02-28T17:56:09.550

0 投票

1 回答

3979 浏览

c# - 使用 HTML Agility Pack 抓取元标记和评论

我一直在寻找有关使用 HTML Agility Pack 的教程，因为它似乎可以完成我想要它做的所有事情，但对于如此强大的工具来说，互联网上似乎很少有关于它的噪音。

我正在编写一个简单的方法，它将根据名称检索任何给定的标签：

这可以使用正则表达式轻松完成，但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止，我有以下代码：

我希望能够首先从 HTML 中删除所有注释，然后根据其名称返回正确的标签。如果可能的话，我还想根据属性返回某些元标记，例如机器人。我对 xpath 不是很好，所以任何帮助都会很好。

任何帮助将非常感激。

c#.net html-parsing html-agility-pack

2010-03-01T08:48:22.920

0 投票

1 回答

3363 浏览

.net - 将 HTML 页面加载为 XML

我用它来通过 XML 加载 HTML 页面

或者

但我遇到了一些错误，例如：

Expecting an internal subset or the end of the DOCTYPE declaration. Line 2, position 14;
'>' is an unexpected token. The expected token is '"' or '''. Line 1, position 62;
Expecting an internal subset or the end of the DOCTYPE declaration. Line 5, position 20.

当我解决一个错误时，所有这些错误都出现在我身上，另一个错误出现了。

我在问，我是使用完美的方式来加载这个文件还是有另一种方式？

.net xml vb.net html-parsing

2010-03-02T14:44:32.420

1 2 3 4 5 6 7 8 9 10

问题标签 [html-parsing]

Reference