问题标签 [domparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
1065 浏览

php - 正则表达式:仅当不是标签的一部分时才匹配字符串

只有当它不是 html 标记的一部分时,我才尝试匹配字符串。

例如在搜索字符串时:“abc”。 <a href="foo.html">abc def</a>应该匹配 <p> foo bar foo abc foo bar</p>应该匹配

<a href="abc.html">foo</a>不应该匹配。

谢谢您的帮助!

0 投票
5 回答
9716 浏览

java - Android:解析 XML DOM 解析器。将子节点转换为字符串

又是一个问题。这次我正在解析从服务器接收到的 XML 消息。有人认为自己很聪明,决定将 HTML 页面放在 XML 消息中。现在我有点面临问题,因为我想从这个 XML 消息中提取那个 HTML 页面作为字符串。

好的,这是我正在解析的 XML 消息:

<AmigoRequest> <From></From> <To></To> <MessageType>showMessage</MessageType> <Param0>general message</Param0> <Param1><html><head>test</head><body>Testhtml</body></html></Param1> </AmigoRequest>

您会看到在 Param1 中指定了一个 HTML 页面。我尝试通过以下方式提取消息:

其中 d 是文档形式的 XML 消息。它总是返回一个空值,因为 getNodeValue() 返回空值。当我尝试 results.item(0).getFirstChild().hasChildNodes() 时,它会返回 true,因为他看到消息中有一个标签。

如何<html><head>test</head><body>Testhtml</body></html>从字符串中的 Param0 中提取 html 消息?

我正在使用 Android sdk 1.5(几乎是 java)和 DOM Parser。

感谢您的时间和回复。

安泰克

0 投票
7 回答
15192 浏览

php - 如何从字符串中提取 PHP 中的标题标签?

从包含大量 HTML 的字符串中,如何将<h1><h2>etc标签中的所有文本提取到新变量中?

我想从这些元素中捕获所有文本并将它们作为逗号分隔值存储在一个新变量中。

可以使用preg_match_all()吗?

0 投票
3 回答
1747 浏览

android - 解析 xml 文件

给我一个关于如何使用 DOM 解析自定义 xml 文件的示例

0 投票
2 回答
615 浏览

android - android中的DOM解析器

尝试使用以下代码解析 res/xml 中的 xml 文件。但是当启动项目时,它显示异常“没有这样的文件/目录”。代码中是否有任何错误?立即给我一个答案。在此先感谢。

XML 文件是

0 投票
7 回答
56857 浏览

php - 如何使用标签的 id 剥离标签及其所有内部 html?

我有以下html:

我想删除从<div id="anotherDiv">直到关闭的所有内容<div>。我怎么做?

0 投票
2 回答
1192 浏览

c# - 使用 HtmlAgilityPack 分割文档

我想知道这是否可能。

我有这样的html:

是的,它是丑陋的 html,它来自所见即所得,所以我几乎无法控制它。

我想要做的是在文档中搜索[READMORE],删除所有父标签(在本例中为 the<font><p>标签)并用 readmore 链接替换它们,同时将文档的 REST 包装在一个巨大的 `...文章的其余部分...

我很确定 HtmlAgilityPack 将帮助我实现这一目标,但我只是想弄清楚从哪里开始。

到目前为止,我很确定我必须使用htmlDoc.DocumentNode.SelectSingleNode(//p[text()="[READMORE]"])或其他东西。我对 XPATH 不太熟悉。

对于我的文档,readmore 可能在嵌套标签中,也可能不在嵌套font标签中。

此外,在某些情况下,它可能根本不在标签中,而是在文档根目录中。在这种情况下,我可以进行常规搜索和替换,它应该很简单。

我的理想情况是这样的(伪代码)

我知道,我在做梦……但我希望这是有道理的。

0 投票
1 回答
6244 浏览

javascript - 如何从通过 XMLHttpRequest 接收的 html 页面创建 DOM 对象?

我正在开发一个 chromium 扩展,因此我对我请求权限的域的 XMLHttpRequests 具有跨主机权限。

我使用了 XMLHttpRequest 并获得了一个 HTML 网页 (txt/html)。我想使用 XPath (document.evaluate) 从中提取相关位。不幸的是,我无法从返回的 html 字符串构造一个 DOM 对象。

console.log是在 Chromium JS 控制台中显示调试内容。

在上述 JS 控制台中。我明白了:

那么我想如何使用 XMLHttpRequest -> 接收 HTML -> 转换为 DOM -> 使用 XPath 来横向?

我应该使用“隐藏”iframe hack 来加载/接收 DOM 对象吗?

0 投票
3 回答
4149 浏览

java - 更改 org.w3c.dom.Document 的默认实现

我需要在我的项目中更改默认实现org.w3c.dom.Document

我按照此链接 更改了默认实现:

我用 in 创建了 3 个具有上述名称的文件,META-INF/services并在每个文件中放入以下行:

在文件中:javax.xml.parsers.DocumentBuilderFactory我输入:com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderFactoryImpl

在文件中:javax.xml.parsers.SAXParserFactory我输入:com.sun.org.apache.xerces.internal.jaxp.SAXParserFactoryImpl

在文件中:javax.xml.transform.TransformerFactory我输入:org.apache.xalan.processor.TransformerFactoryImpl

但是当我部署在 Oracle 应用服务器上时,我得到了实现类org.w3c.dom.Document是 :oracle.xml.parser.v2.XMLDocument而不是com.sun.org.apache.xerces.internal.dom.DeferredDocumentImpl在 Jetty 上进行开发时打印的。

我正在 Jetty 上开发并部署在 Oracle 应用服务器上。

0 投票
1 回答
3857 浏览

javascript - Javascript xml解析器:如何获取名称中包含“:”的节点

我有以下代码试图获取 c:CreationDate 节点:

不幸的是,它返回的是一个空数组,而不是带有 xml 中节点的数组。我认为这是由于“:”符号引起的。

有没有办法逃脱它?

注意:请不要建议在 childNodes 或类似的东西上使用。这对我不起作用,因为我的 xml 验证复杂(这里只是一个示例)并且将来很可能会发生变化,我只能依赖标签名称。

谢谢!