问题标签 [xml2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2997 浏览

r - 从 R xml2 中的单个 XML 节点集中隔离数据

我正在尝试从 XML 文档中迭代地隔离和操作节点集,但是我在 R 的 xml2 包中的 xml_find_all() 函数中遇到了一个奇怪的行为。有人可以帮我理解应用于节点集的函数的范围吗?

这是一个例子:

对象 customer.01 是一个仅包含来自该客户的数据的节点集。

为什么应用于 customer.01 节点集的函数也返回 customer.02 的 ID?

如何仅返回该节点集中的值?

~~~

好的,所以下面的解决方案中有一个小问题,再次与 xml_find_all() 函数的范围有关。它说它可以应用于文档、节点或节点集。然而...

这种情况在应用于节点集时有效:

但不是这个:

我猜这是将 xml_find_all() 应用于节点集的所有元素而不是范围问题的问题?

0 投票
2 回答
1620 浏览

r - 如何使用 xml2 包将数据框转换为 xml?

我正在尝试使用 xml2 使用新节点更新 xml 文件。如果我只是将所有内容手动编写为文本,这很容易,

但我正在开发一个将运行计算然后将这些值放入 xml 的应用程序,所以我需要混合字符和变量。它最终看起来像:

我怀疑有一种比使用 paste0 更简单的方法来做到这一点,但我无法得到任何其他工作。我希望能够通过引用数据框来指示它更新 xml,以便它可以创建新的试验:

有没有办法以大约这种方式创建新的 Trial 节点,或者至少比使用 paste0 插入变量更自然?这是 XML 包比 xml2 做得更好的东西吗?

0 投票
1 回答
432 浏览

r - 使用 rvest 和 XML2 提取表在 R 中进行 Web 抓取

我希望从示例 URL https://www.valueresearchonline.com/funds/fundSelector/returns.asp?cat=10&exc=susp%2Cclose&rettab=st中提取带有排名和返回的表格

到目前为止尝试过 rvest

我需要一个带有方案名称的数据框/表,以及提到的所有时期的排名和回报

0 投票
1 回答
659 浏览

r - R中的xml2:从父母那里提取孩子的属性(一切都被命名为相同的)

我有以下 xml,其中节点可以具有相同的名称,但它们的属性可能不同。

我想要的是提取signature,entry和pergo-xref的属性。听起来很容易,我想会是这样。locationshmmer3-match

这是我尝试过的:

看起来它使比赛翻了一番,因为:

for如果我尝试循环,也会发生同样的事情:

我对此事的了解非常有限,我觉得我错过了一些相当简单的东西?

我正在寻找一种通用解决方案,该解决方案适用于具有任意数量 , 的任意数量hmmer3-match节点。go-xreflocations

谢谢。

0 投票
0 回答
424 浏览

r - 每个相关节点的 R xml2 父祖先

有没有办法直接获取一组节点的每个节点的父节点的文本?

我正在通过库访问xml文件。使用该函数效率很高,但我还想为每个找到的节点提取一些父属性。在节点集上应用时,我没有获得每个相关节点的相应父节点,而只是获得小于相关子节点集的相关父节点集,并且无法匹配它们。Rxml2xml_find_all()xml_find_all()

当然,可以访问每个节点,然后通过 for 循环,寻找各自的父节点,但这会减慢整个过程。

0 投票
1 回答
634 浏览

r - xml2 从 .atomsvc​​ 文件中提取 URL

我正在努力抓取一个依赖 .atomsvc​​ 文件的公共数据源,以允许用户在 Excel 中设置数据馈送。我使用 XML 库在 R 中构建了一个非常脆弱的解析器来提取 URL。我想知道如何在 xml2 中做到这一点(最好以更简洁和优雅的方式)

这是我使用 XML 库的方法

据我所知,这是 xml2 版本

我不知道如何从这里提取 URL,或者这是否是思考如何思考这个问题的正确方法。非常感激任何的帮助!

0 投票
1 回答
396 浏览

r - xml2 - 更有效地从父节点获取信息

我有一个看起来像这样的 xml:

我正在寻找的是一个 data.frame 指的是孩子各自的父母:

我只能想到使用 xml2 的 2 个解决方案:

(a) 使用 xml_find_all(...) 创建一组子节点,然后使用 for 循环遍历 xml 结构以获取所需信息。显然效率极低。

(b) 得到一组父节点和一组子节点。从父集合中提取信息并计算每个父母有多少个孩子。然后使用 rep(information, no_of_children) 从上面填充 node_id 列。更好,但仍然愚蠢。

我认为必须有一种更有效的方法?我很高兴有任何建议,因为我现在使用这些方法一个多月了,同时处理千兆位的 - 效率极低的 xml 格式的数据结构。我也不限于使用 xml2,如果这会大大提高性能,我还可以切换到另一种编程语言。唯一重要的部分是我想从那里直接将数据加载到数据库中。

0 投票
0 回答
286 浏览

r - 从网上刮下一张凌乱的大表并放入数据框中

我正在尝试将http://killedbypolice.net/上的表格导入 R。表格很大并且合并了单元格,所以它并不简单。我的代码的最后一步永远不会结束。如何让表格进入我的 R 会话?

这是我正在尝试的:

问题是最后一行永远运行。我猜它挂在合并的单元格上?

是否有另一种方法可以将 HTML 表格放入数据框中?

0 投票
1 回答
260 浏览

r - 递归提取 XML 属性

我有一个 XML 文档:

如何在保留层次关系的同时name从每个中提取属性?Member例如:

编辑:改变目标输出

0 投票
2 回答
39 浏览

r - 从 OpenIR 中的相似节点中提取属性

该任务的目标是在 IR 的搜索结果页面中提取关于论文标题的“href”,并将它们作为数据框。这个结果页面的结构不是很好:论文标题、问题信息、作者和下载按钮在同一个字段中,仅用“span”(在“title”、“issue”和“authors”之间)和“sup”分隔”(在“作者”内)。

上面的程序运行没有错误,但“titleLine”有很多冗余,“titlehref”只有一个“class”itemLine“的比赛,但根本没有URL。我的问题是:

  1. 如何准确定位论文标题的href?我使用第二层“html_nodes”来保存所有目标href。但是,“sup”标签下的“href”仍在“titleLine”中,“target”也在。我们可以使用“target”属性来定位正确的“href”但不让它们出现在“titleLine”中吗?
  2. 我们如何定位具有复杂“值”的属性?在上面的程序中,我只使用“href”。我以前尝试过使用“xpath 样式”,但没有帮助。我想使用命名空间来识别论文的URL,但是我看到ns可能只能从“xmlns”属性中提取,并且无法手动分配(如titlehref <- xml_attrs(titleLine, "href", ns=”http://ir.las.ac.cn/handle”)

如何拟合这个IR的结构才能得到正确的结果?非常感谢。