问题标签 [xml2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1262 浏览

r - 在 R 中解析 XML:不正确的命名空间

我有一堆 XML 文件和一个将它们的内容读入数据框的 R 脚本。但是,我现在得到了我想像往常一样解析的文件,但是它们的命名空间定义中有一些东西不允许我使用 XPath 表达式正常选择它们的值。

XML 文件是这样的:

xml_nons.xml

和另一个:

xml_ns.xml

xmlns 指向的 URL 不存在。

我使用的 R 代码是这样的:

但是,我得到的结果是:

如果我从第二个文件中删除名称空间链接,我会得到正确的:

当然,我可以有一个 XSL 来从原始 XML 文件中删除这些名称空间,但我想有一些在 R 中工作的解决方案。有没有办法告诉 R 只是忽略 XML 声明中的所有内容?

0 投票
0 回答
1038 浏览

r - 在 R 中安装 xml2 时出现问题

当我尝试在 RStudio 服务器上安装 xml2 时,出现以下错误:

我的会话信息是

xml2 R-package 完美安装在我的 macbook air 上......

0 投票
1 回答
1067 浏览

xml - R中未定义的命名空间xml2

我正在学习如何使用 R 来解析 XML,并且我正在尝试使用 Hadley 的 Wickhamxml2包来解析位于此处的 TEI XML 文本文档(警告:这是一个压缩文件,我正在尝试解析的特定文件在下面的代码中给出)。我试图弄清楚命名空间在这个包中是如何工作的(我无法理解我正在使用的特定文本的文档)。使用该XML软件包,我可以执行以下操作:

但是,我不知道如何使用xml2. 我得到inherits(x, "xml_document") is not TRUE错误或In node_find_all(x$node, x$doc, xpath = xpath, nsMap = ns) : Undefined namespace prefix [1219]错误。这是我尝试过的:

我知道这是一个新包,但有人知道如何在其中使用命名空间吗?

0 投票
1 回答
2245 浏览

xml - 使用 xml2 从 TEI XML 创建数据框

xml2我正在尝试使用 Hadley Wickham 的包创建一个 TEI-XML 版本的 Moby Dick 的数据框。我希望数据框最终看起来像这样(对于小说中的所有单词):

我可以得到碎片,但不是全部。这是我到目前为止所得到的:

这给了我们一个长度为 134 的列表(即每一章)。我们可以获得特定元素的章节编号,如下所示:

我们可以得到特定章节的段落(即减去章节标题)如下:

我们可以得到章节的单词如下:

我不知道如何获得每个单词的章节号。我有一个有效的玩具示例:

但它不适用于更长的示例

(我知道为什么玩具示例有效,但梅尔维尔的示例无效,但我想包含它以显示我正在尝试做的事情)。我猜我可能需要某种循环,但我不确定从哪里开始。有什么建议么?

PS:我不完全确定我是否应该链接到我在 Github 上找到的 Moby Dick 的 xml 版本,但你可以很容易地在搜索melville1.xml.

0 投票
1 回答
721 浏览

xml - XML 到缺少节点的数据框

这个问题的版本之前已经被问过了,就像这里这里一样。但是,我仍然无法让它工作。我正在尝试将 XML 文档解析为数据框。问题是某些变量不存在某些观察结果,因此我收到错误消息,因为行数不同。我的数据如下所示:

我正在使用 Wickham 的xml2包来读取 xml。XML我更喜欢使用这个包,但如果这是解决这个问题的最佳(或唯一)方法,我会愿意使用。无论如何,我的代码如下:

这个特定的问题涉及occupation变量(第三人没有变量),但在我的实际数据中,它也可能是其他变量之一。正如我所说,我可以看到之前已经提出过这个问题,但是我可以获得任何可行的建议(可能是由于我没有完全理解解决方案)。最终,我希望在缺少特定节点时返回 NA(因此occupation第三人的变量将是NA.

编辑时:这是替代XML版本

只需取消注释occupation即可查看问题。

0 投票
0 回答
836 浏览

r - R 中 xml2 包的问题 - 与 SSL 的连接

我正在尝试初始化与 read_xml(包 xml2)的连接,但它似乎返回了 SSL 问题。

我试过这段代码:

它返回了这个错误:

我不知道为什么会这样。

使用 httr,这有效:

0 投票
1 回答
1284 浏览

r - find_xml_all 返回 {xml_nodeset (0)}

我最近从这张地图下载了 KML 文件,并尝试使用该包xml2来提取露营地的信息,例如地理位置、场地周围的设施等;但我{xml_nodeset (0)}最后得到了。

以下是我使用的代码,

这是KML文件的结构(你也可以试试xml_structure(campsites)),

如您所见,有名为“地标”的节点,为什么我找不到使用的节点xml_find_all?我的代码有错误吗?

谢谢!

0 投票
1 回答
259 浏览

r - 使用 xpath 在 R 中使用 xml2 读取 sbml 文件

我真的很陌生,xml我正在尝试sbml使用.xml2R

演示文件sbml取自sbml主页。

我对如何使用xpath.

例如,我试过

工作并给我"EnzymaticReaction"作为答案。但是,我不想按索引访问节点,而是按名称访问节点 - 所以我尝试了

这给了我错误

谁能帮我看看我在打电话时做错了xpath什么?该sbml文件也粘贴在下面。

谢谢!

0 投票
2 回答
762 浏览

xml - 使用 xml2 包读取大 XML 文件并尝试创建工作闭包时出现问题

我正在使用该xml2包将一个巨大的 XML 文件读入内存,但该命令失败并出现以下错误:

错误:字符 0x0 超出允许范围 [9]

我的代码如下所示:

数据可以在ftp://ftp.flybase.net/releases/FB2015_05/reporting-xml/FBrf.xml.gz 下载(大约 140MB),解压后大约有 1.8GB。

有没有人建议如何在阅读之前找出哪些字符有问题或如何清理文件。

编辑

好的,因为文件很大,所以我搜索了有关堆栈溢出的其他解决方案,并尝试实现 Martin Morgan 的解决方案,他在这里介绍了将值合并到巨大的 XML 文件中

所以到目前为止我所做的是以下代码行

我将 xml 文件上传到我的服务器http://download.dejung.net/jnk.xml

该文件只有几 kb,但问题是结果。第二个发布条目有一个 id FBrf0162243和一个 miniref Schwartz et al., 2003, Mol. Cell. Biol. 23(19): 6876--6886

我上面发布的代码的结果向相应的 miniref 报告了错误的发布 ID。特征ID是正确的......

FBrf0050934 FBgn0003277 Schwartz 等人,2003 年,摩尔。细胞。生物学。23(19): 6876--6886

不知道为什么我的代码报告了错误的值,也许有人可以帮助我关闭闭包,因为这对我来说很新。

0 投票
1 回答
440 浏览

r - 使用 xml2 抓取 web 表的前两列

我一直在努力使用 R 中的 xml 包,我需要一些帮助来使用 xml2 抓取一些格式良好的表。

我想抓取的表格第一页的 url 在 这里。在某些页面上,我想要第二个和第三个表格,但在其他页面上,我想要第一和第二个。一个共同的线索是,我希望将所有“标题”标签包含“符合”文本的表格都抓取并存储在一个列表中,而“标题”标签包含“不符合任何”文本的表格。但我真的不知道该怎么做。我正在使用的代码如下。我可以想象必须有某种方法可以使正则表达式成为选择整个表的条件。希望代码有效。