问题标签 [sax]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3001 浏览

arrays - VBScript:错误 10023 中:数组索引超出范围(重用数组变量时出现问题)

使用 Sax ActiveX 脚本(长篇故事),我有 3 个嵌套的 if 语句,它们重用相同的返回变量。脚本大致如下:

奇怪的是,同样的代码结构在我上周编写的脚本中运行。我只是更改了几个查询和函数的名称(查找 > 替换)。

在第二个查询之后,我尝试了 aMsgBox CStr(rtnArray(0)(0))但它产生了Error 10025 in : Array has a different number of indexes.

错误代码对应以下手册: http:
//www.ftgsoftware.com/manuals/basic32.pdf

0 投票
2 回答
1068 浏览

java - 使用 SAX 解析器捕获 XML 中的混合内容

SAX 解析器是否能够捕获 XML 文档中的混合内容(参见下面的示例)?

<element>here is some <b>mixed content</b></element>

0 投票
1 回答
933 浏览

android - “»”字符的android Sax解析异常

嗨朋友们,我正在使用 Sax 解析器来解析我从互联网上收到的 xml 文件......问题是正常的 xml 被解析得很好,除了属性中带有“»”符号的 xml 文件......

每次我尝试解析文件时,我都会收到以下错误

有什么方法可以让我绕过这个字符并通过java代码自己处理吗???提前谢谢...

0 投票
1 回答
4589 浏览

python - 如何使用 python SAX 解析器获取标签之间的文本?

我需要的只是获取相应标签的文本并将其保存到数据库中。由于 xml 文件很大(4.5GB),我使用的是 sax。我使用字符方法来获取文本并将其放入字典中。但是,当我在endElement方法中打印文本时,我得到的是新行而不是文本。

这是我的代码:

提前致谢。

0 投票
1 回答
1370 浏览

java - 忽略 SAX 中的一些 XML 标记

我正在使用 Java 中的 SAX 解析 XML 文档。
我正在使用描述不同领域研究出版物的 XML。
其中有诸如“抽象”之类的元素,简要描述了研究论文的内容。该字段允许使用基本的 HTML 格式,但我不希望 SAX 将 HTML 标签(如 i、b、u、sub、sup 等)作为真正的 XML 标签并触发 strartElement() 和 endElement( ) 元素上的事件。

有没有办法告诉 SAX 忽略一些预定义的 XML 标记集并将它们的 XML 代码按原样传递给 characters() 方法?

0 投票
4 回答
5067 浏览

java - 将多个大型 xml 文件高效合并为一个

我搜索了网络,并上下搜索了stackoverflow。没有解决方案。虽然我在这里找到了如何在纯 xslt 中执行此操作的解决方案。

但问题是生成的 xml 将有数百 MB 大。所以我必须用 Java 中的 SAX 来做这件事。(请不要使用 xslt 解决方案,尽管我用 xslt 对其进行了标记;-))

让我更详细地解释一下。我有几个应该解析的多个 xml 文件(最好是 InputSteam)。文件或 InputStream 的样子

输入流1

输入流2

inputstream1+inputstream2+...+inputstreamN =结果 xml。它看起来像

有人对此有解决方案或链接吗?这是否可以通过实现自定义 InputSource 或者我应该使用自定义 ContentHandler 来实现?或者这可能与joost/stx吗?

如果我可以使用 ContentHandler 的好处是我可以应用一些小的转换(我已经实现了这个)。但问题是我不知道如何将多个文件或 InputStream 作为 InputSource 传递:

还是应该直接在我的 ContentHandler 中解析 InputStreams?

0 投票
9 回答
2696 浏览

c++ - Dom Vs Sax - 创建 Xmls

我知道 Sax 和 Dom 之间在解析 Xml 方面的区别相当大,但是创建一个呢?有没有办法使用 Sax 创建新的 Xml,或者如果我想根据程序中的数据创建新的 Xml 文件,我将不得不使用 DOM?

谢谢

0 投票
4 回答
6452 浏览

php - 在 PHP 中解析格式错误的 HTML

在我的代码中,我使用 openoffice 将一些样式化的 xls 文档转换为 html。然后我使用xml_parser_create. <BR>问题是 openoffice 创建带有未封闭和标签的 oldschool html <HR>,它不创建 doctypes 并且不引用 attributes <TABLE WIDTH=4>

我知道的 php 解析器不喜欢这样,并产生 xml 格式错误。我目前的解决方案是在解析文件之前对文件运行一些正则表达式,但这既不好也不快。

你知道一个(希望包括在内的)php-parser,它不关心这些类型的错误吗?或者也许是修复“损坏”html的快速方法?

0 投票
3 回答
23312 浏览

python - 使用 lxml.etree.iterparse 解析损坏的 XML

我正在尝试以内存高效的方式使用 lxml 解析一个巨大的 xml 文件(即从磁盘懒惰地流式传输,而不是将整个文件加载到内存中)。不幸的是,该文件包含一些破坏默认解析器的错误 ascii 字符。如果我设置了recover=True,解析器就可以工作,但是iterparse 方法不采用recover 参数或自定义解析器对象。有谁知道如何使用 iterparse 解析损坏的 xml?

谢谢你的帮助!

编辑——这是我遇到的编码错误类型的一个例子:

如您所见,chardet 认为它是一个 ascii 文件,但在这个示例中间有一个“\x1e”,这使得 lxml 引发异常。

0 投票
1 回答
2617 浏览

java - 如果输入文件中未指定 DTD,如何强制 SAX 解析器使用 DTD?

如何在解析文档时强制 SAX 解析器(特别是 Java 中的 Xerces)使用 DTD,而输入文档中没有任何文档类型?这甚至可能吗?

以下是我的场景的更多细节:

我们有一堆符合由多个不同系统生成的相同 DTD 的 XML 文档(我都无法更改)。其中一些系统将文档类型添加到其输出文档中,而其他系统则没有。有些使用命名字符实体,有些则不使用。有些使用命名字符实体而不声明文档类型。 我知道这不是犹太教,但这是我必须处理的。

我正在开发需要用 Java 解析这些文件的系统。目前,它通过首先将 XML 文档作为流读取来处理上述情况,尝试检测它是否定义了 doctype,如果还没有,则添加一个 doctype 声明。问题是这段代码有问题,我想用更干净的东西替换它。

文件很大,所以我不能使用基于 DOM 的解决方案。我也在尝试解析字符实体,因此使用 XML 模式无济于事。

如果您有解决方案,请您直接发布而不是链接到它吗?如果将来有一个带有死链接的正确解决方案,它对 Stack Overflow 并没有多大好处。