问题标签 [xml-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
88 浏览

xml - Rightmove XML 实体

我们有一个通过 XML 文件向 Rightmove 提供数据的站点。但是,我们看到一个小问题,特殊字符显示为奇数符号。例如,当智能引号粘贴到我们的数据源(Drupal CMS)中时,字符显示为“或”。

字符问题示例

我们的数据库表使用 utf8_general_ci 并且在我们的网站上看起来一切正常。我需要做什么才能让 Rightmove 显示正确的字符?

0 投票
1 回答
259 浏览

dom - 在 Java 中将 XmlEncoding 设置为 Dom 文档

我需要在 Dom 文档对象中设置 XmlEncoding (UTF-8),而不使用带有他的“setOutputProperty(OutputKeys.ENCODING,”UTF-8”) 方法的 Transformer。

我不想使用 Transform 对象获取 XML 字符串,因为我正在使用 Xades XMLSignature 库,该库使用 Document 对象进行签名。

问题是对于如下创建的 Dom 文档,他的 getXmlEncoding() 方法返回 null。

但应用以下代码后,新 DOM 文档的 XmlEncoding 方法返回 UTF-8(我的 xades 库的要求)。这是因为转换过程以某种方式添加了编码。出于性能原因,我想避免执行此代码。

如何使用序言信息创建 Dom 文档?

0 投票
1 回答
435 浏览

java - VTD-XML:XMLModifier.output() 抛出 IndexOutOfBoundsException

我一直在尝试使用 VTD-XML 修改 xml 文件。xml 已作为字符串从 java (JAX-WS) Web 服务接收。来自服务器的 http 响应标头具有内容类型:text/xmlcharset = utf-8

这是代码:

xml 上面的声明是这样的:

这就是为什么我在getDataFromFile()方法中以UTF-16格式从文件中读取字节的原因。否则,代码将引发异常,指出它无法切换到编码 UTF-16。

现在上面的代码抛出以下异常:

如果我将文件的编码更改为UTF-8并相应地修改getDataFromFile()方法(也就是说,我们从文件中读取字节而不指定任何编码UTF-8 作为编码)一切正常。

任何帮助,将不胜感激。

0 投票
1 回答
394 浏览

xml - 使用 golang 编码/xml 解组 GML 时出错

我正在尝试解组一些 XML,实际上是地理标记语言 (GML)。

我在http://play.golang.org/p/qS6GjCOtHF有一个例子

两个问题,第一个:

错误读取带有标签“boundedBy>Envelope>lowerCorner”的xml main.FeatureCollection字段“LowerCorner”与带有标签“boundedBy>Envelope”的字段“Envelope”冲突

我不知道如何解决这个问题。我将这些注释掉并让 GML 无错误地解组,FeaturesFeatureCollection.

有什么线索吗?

GML 的一个例子是:

我的结构

0 投票
3 回答
924 浏览

xml - 在解析 Atom XML 提要时,应该如何处理冲突的 CDATA 和实体转义元素?

Atom 提要解析器应如何处理提要中的以下 XML 行:

为了便于讨论,我们假设最初预期的文本实际上是Johnson & Johnson. 我遇到了这个关于这个问题的在线讨论,似乎有两种不同的意见:

1. 意见 #1 - 声称此内容是双重编码的。文本“Johnson & Johnson”文本已被实体转义,然后通过包裹在 CDATA 部分中再次编码。他指出,表现良好的 xml 解析器将返回Johnson & Johnson,因为这就是XML 规范规定 CDATA 编码数据应该被处理的方式。

  1. 意见 #2 - 声称 Atom 规范具有先例。他指出,CDATA 充当传递。Johnson & Johnson出来Johnson & Johnson。如果这只是一个 XML 文档,它将到此结束。但是,因为它是 Atom,所以我们必须查看Atom 规范以确定正确的行为。atom 规范指出,任何带有type="html"contains 实体的元素都会转义 html。因此,我们应该可以自由地对其进行解码。

这些事实中哪一个是正确的?一个适当的 Atom XML 解析器应该产生: Johnson & Johnson还是Johnson & Johnson在这种特殊情况下?

0 投票
1 回答
743 浏览

c# - 使用 XML DOCUMENT 将 XML 文件从一个位置保存到另一个位置

将现有 XML 保存到新位置时,实体从内容中转义并替换为问号

请参阅实体下方的快照 - ( - 作为十六进制)在读取时存在,但在保存到另一个位置后替换为问号。

作为内部 XML 读取时

作为内部 XML 读取时

作为内部文本阅读时

作为内部文本阅读时

保存 XML 文件后

保存 XML 后

编辑 1 下面是我的代码

编辑 2 我的源文件如下所示。我需要保留实体

在此处输入图像描述

0 投票
0 回答
167 浏览

c# - 使用不受支持的实体引用处理 US-ASCII 编码的 XML

这个问题是本页的延续

PROCESS:涉及的过程,打开XML文件并在特定节点进行一些修改并将其保存回另一个位置。

面临问题:在对 XML 进行一些修改后保存时,不受支持的实体引用(如ö转换为ö. 我想保留源中的实体(ö

正如öö是相同的字符,但我需要保留它在源 xml 中的样子。

XML 源

预期输出

马上行动

我的代码

0 投票
0 回答
473 浏览

java - 如何在 Java 中为 XML 解码 Unicode HTML 实体

有没有我可以用来实现的库unescapeUnicodeHtml?如果没有,实现它的最佳方法是什么?

0 投票
2 回答
1261 浏览

java - Apache Camel 处理 XML 文件中声明的编码

我正在尝试使用带有 xtokenize 的 Apache Camel Splitter 解析 UTF-16 编码的文档,这代表 Woodstox (com.ctc.wstx.sr.BasicStreamReader),目前我在读取文件之前无法知道文件的编码有些文件是 UTF-16,有些是 UTF-8:

我遇到的问题是 Camel 告诉 Woodstox 使用哪种编码:

它将默认 UTF-8 设置为编码,因此 BasicStreamReader 尝试将 BOM 字节读取为 UTF-8 并失败

https://www.w3.org/TR/xml/#sec-guessing XML Parser (Woodstox) 中所述,如果只有 Camel 允许它完成工作,它应该能够自动检测文件编码。

有没有办法不自己实现编码检测?

0 投票
2 回答
1085 浏览

coldfusion - 转义和取消转义 HTML

在我无法控制的函数中,数据正在通过

我以后想做一个

问题是所有的 HTML 标签都被转义了。

我考虑过

但我不确定这些是否互为倒数