问题标签 [sax]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
arrays - VBScript:错误 10023 中:数组索引超出范围(重用数组变量时出现问题)
使用 Sax ActiveX 脚本(长篇故事),我有 3 个嵌套的 if 语句,它们重用相同的返回变量。脚本大致如下:
奇怪的是,同样的代码结构在我上周编写的脚本中运行。我只是更改了几个查询和函数的名称(查找 > 替换)。
在第二个查询之后,我尝试了 aMsgBox CStr(rtnArray(0)(0))
但它产生了Error 10025 in : Array has a different number of indexes.
错误代码对应以下手册: http:
//www.ftgsoftware.com/manuals/basic32.pdf
java - 使用 SAX 解析器捕获 XML 中的混合内容
SAX 解析器是否能够捕获 XML 文档中的混合内容(参见下面的示例)?
<element>here is some <b>mixed content</b></element>
android - “»”字符的android Sax解析异常
嗨朋友们,我正在使用 Sax 解析器来解析我从互联网上收到的 xml 文件......问题是正常的 xml 被解析得很好,除了属性中带有“»”符号的 xml 文件......
每次我尝试解析文件时,我都会收到以下错误
有什么方法可以让我绕过这个字符并通过java代码自己处理吗???提前谢谢...
python - 如何使用 python SAX 解析器获取标签之间的文本?
我需要的只是获取相应标签的文本并将其保存到数据库中。由于 xml 文件很大(4.5GB),我使用的是 sax。我使用字符方法来获取文本并将其放入字典中。但是,当我在endElement方法中打印文本时,我得到的是新行而不是文本。
这是我的代码:
提前致谢。
java - 忽略 SAX 中的一些 XML 标记
我正在使用 Java 中的 SAX 解析 XML 文档。
我正在使用描述不同领域研究出版物的 XML。
其中有诸如“抽象”之类的元素,简要描述了研究论文的内容。该字段允许使用基本的 HTML 格式,但我不希望 SAX 将 HTML 标签(如 i、b、u、sub、sup 等)作为真正的 XML 标签并触发 strartElement() 和 endElement( ) 元素上的事件。
有没有办法告诉 SAX 忽略一些预定义的 XML 标记集并将它们的 XML 代码按原样传递给 characters() 方法?
java - 将多个大型 xml 文件高效合并为一个
我搜索了网络,并上下搜索了stackoverflow。没有解决方案。虽然我在这里找到了如何在纯 xslt 中执行此操作的解决方案。
但问题是生成的 xml 将有数百 MB 大。所以我必须用 Java 中的 SAX 来做这件事。(请不要使用 xslt 解决方案,尽管我用 xslt 对其进行了标记;-))
让我更详细地解释一下。我有几个应该解析的多个 xml 文件(最好是 InputSteam)。文件或 InputStream 的样子
输入流1
输入流2
inputstream1+inputstream2+...+inputstreamN =结果 xml。它看起来像
有人对此有解决方案或链接吗?这是否可以通过实现自定义 InputSource 或者我应该使用自定义 ContentHandler 来实现?或者这可能与joost/stx吗?
如果我可以使用 ContentHandler 的好处是我可以应用一些小的转换(我已经实现了这个)。但问题是我不知道如何将多个文件或 InputStream 作为 InputSource 传递:
还是应该直接在我的 ContentHandler 中解析 InputStreams?
c++ - Dom Vs Sax - 创建 Xmls
我知道 Sax 和 Dom 之间在解析 Xml 方面的区别相当大,但是创建一个呢?有没有办法使用 Sax 创建新的 Xml,或者如果我想根据程序中的数据创建新的 Xml 文件,我将不得不使用 DOM?
谢谢
php - 在 PHP 中解析格式错误的 HTML
在我的代码中,我使用 openoffice 将一些样式化的 xls 文档转换为 html。然后我使用xml_parser_create
. <BR>
问题是 openoffice 创建带有未封闭和标签的 oldschool html <HR>
,它不创建 doctypes 并且不引用 attributes <TABLE WIDTH=4>
。
我知道的 php 解析器不喜欢这样,并产生 xml 格式错误。我目前的解决方案是在解析文件之前对文件运行一些正则表达式,但这既不好也不快。
你知道一个(希望包括在内的)php-parser,它不关心这些类型的错误吗?或者也许是修复“损坏”html的快速方法?
python - 使用 lxml.etree.iterparse 解析损坏的 XML
我正在尝试以内存高效的方式使用 lxml 解析一个巨大的 xml 文件(即从磁盘懒惰地流式传输,而不是将整个文件加载到内存中)。不幸的是,该文件包含一些破坏默认解析器的错误 ascii 字符。如果我设置了recover=True,解析器就可以工作,但是iterparse 方法不采用recover 参数或自定义解析器对象。有谁知道如何使用 iterparse 解析损坏的 xml?
谢谢你的帮助!
编辑——这是我遇到的编码错误类型的一个例子:
如您所见,chardet 认为它是一个 ascii 文件,但在这个示例中间有一个“\x1e”,这使得 lxml 引发异常。
java - 如果输入文件中未指定 DTD,如何强制 SAX 解析器使用 DTD?
如何在解析文档时强制 SAX 解析器(特别是 Java 中的 Xerces)使用 DTD,而输入文档中没有任何文档类型?这甚至可能吗?
以下是我的场景的更多细节:
我们有一堆符合由多个不同系统生成的相同 DTD 的 XML 文档(我都无法更改)。其中一些系统将文档类型添加到其输出文档中,而其他系统则没有。有些使用命名字符实体,有些则不使用。有些使用命名字符实体而不声明文档类型。 我知道这不是犹太教,但这是我必须处理的。
我正在开发需要用 Java 解析这些文件的系统。目前,它通过首先将 XML 文档作为流读取来处理上述情况,尝试检测它是否定义了 doctype,如果还没有,则添加一个 doctype 声明。问题是这段代码有问题,我想用更干净的东西替换它。
文件很大,所以我不能使用基于 DOM 的解决方案。我也在尝试解析字符实体,因此使用 XML 模式无济于事。
如果您有解决方案,请您直接发布而不是链接到它吗?如果将来有一个带有死链接的正确解决方案,它对 Stack Overflow 并没有多大好处。