“xml2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

2997 浏览

r - 从 R xml2 中的单个 XML 节点集中隔离数据

我正在尝试从 XML 文档中迭代地隔离和操作节点集，但是我在 R 的 xml2 包中的 xml_find_all() 函数中遇到了一个奇怪的行为。有人可以帮我理解应用于节点集的函数的范围吗？

这是一个例子：

对象 customer.01 是一个仅包含来自该客户的数据的节点集。

为什么应用于 customer.01 节点集的函数也返回 customer.02 的 ID？

如何仅返回该节点集中的值？

~~~

好的，所以下面的解决方案中有一个小问题，再次与 xml_find_all() 函数的范围有关。它说它可以应用于文档、节点或节点集。然而...

这种情况在应用于节点集时有效：

但不是这个：

我猜这是将 xml_find_all() 应用于节点集的所有元素而不是范围问题的问题？

r xml xml2

2017-08-24T16:12:46.493

0 投票

2 回答

1620 浏览

r - 如何使用 xml2 包将数据框转换为 xml？

我正在尝试使用 xml2 使用新节点更新 xml 文件。如果我只是将所有内容手动编写为文本，这很容易，

但我正在开发一个将运行计算然后将这些值放入 xml 的应用程序，所以我需要混合字符和变量。它最终看起来像：

我怀疑有一种比使用 paste0 更简单的方法来做到这一点，但我无法得到任何其他工作。我希望能够通过引用数据框来指示它更新 xml，以便它可以创建新的试验：

有没有办法以大约这种方式创建新的 Trial 节点，或者至少比使用 paste0 插入变量更自然？这是 XML 包比 xml2 做得更好的东西吗？

r xml xml2

2017-08-28T20:50:25.427

0 投票

1 回答

432 浏览

r - 使用 rvest 和 XML2 提取表在 R 中进行 Web 抓取

我希望从示例 URL https://www.valueresearchonline.com/funds/fundSelector/returns.asp?cat=10&exc=susp%2Cclose&rettab=st中提取带有排名和返回的表格

到目前为止尝试过 rvest

我需要一个带有方案名称的数据框/表，以及提到的所有时期的排名和回报

r rvest xml2

2017-09-07T13:18:48.657

0 投票

1 回答

659 浏览

r - R中的xml2：从父母那里提取孩子的属性（一切都被命名为相同的）

我有以下 xml，其中节点可以具有相同的名称，但它们的属性可能不同。

我想要的是提取signature,entry和pergo-xref的属性。听起来很容易，我想会是这样。locationshmmer3-match

这是我尝试过的：

看起来它使比赛翻了一番，因为：

for如果我尝试循环，也会发生同样的事情：

我对此事的了解非常有限，我觉得我错过了一些相当简单的东西？

我正在寻找一种通用解决方案，该解决方案适用于具有任意数量 , 的任意数量hmmer3-match节点。go-xreflocations

谢谢。

r xml2

2017-09-14T23:17:49.060

0 投票

0 回答

424 浏览

r - 每个相关节点的 R xml2 父祖先

有没有办法直接获取一组节点的每个节点的父节点的文本？

我正在通过库访问xml文件。使用该函数效率很高，但我还想为每个找到的节点提取一些父属性。在节点集上应用时，我没有获得每个相关节点的相应父节点，而只是获得小于相关子节点集的相关父节点集，并且无法匹配它们。Rxml2xml_find_all()xml_find_all()

当然，可以访问每个节点，然后通过 for 循环，寻找各自的父节点，但这会减慢整个过程。

r xml xpath xml2

2017-09-26T20:51:44.613

0 投票

1 回答

634 浏览

r - xml2 从 .atomsvc 文件中提取 URL

我正在努力抓取一个依赖 .atomsvc 文件的公共数据源，以允许用户在 Excel 中设置数据馈送。我使用 XML 库在 R 中构建了一个非常脆弱的解析器来提取 URL。我想知道如何在 xml2 中做到这一点（最好以更简洁和优雅的方式）

这是我使用 XML 库的方法

据我所知，这是 xml2 版本

我不知道如何从这里提取 URL，或者这是否是思考如何思考这个问题的正确方法。非常感激任何的帮助！

r xml2

2017-09-29T15:00:04.093

0 投票

1 回答

396 浏览

r - xml2 - 更有效地从父节点获取信息

我有一个看起来像这样的 xml：

我正在寻找的是一个 data.frame 指的是孩子各自的父母：

我只能想到使用 xml2 的 2 个解决方案：

(a) 使用 xml_find_all(...) 创建一组子节点，然后使用 for 循环遍历 xml 结构以获取所需信息。显然效率极低。

(b) 得到一组父节点和一组子节点。从父集合中提取信息并计算每个父母有多少个孩子。然后使用 rep(information, no_of_children) 从上面填充 node_id 列。更好，但仍然愚蠢。

我认为必须有一种更有效的方法？我很高兴有任何建议，因为我现在使用这些方法一个多月了，同时处理千兆位的 - 效率极低的 xml 格式的数据结构。我也不限于使用 xml2，如果这会大大提高性能，我还可以切换到另一种编程语言。唯一重要的部分是我想从那里直接将数据加载到数据库中。

r xml xml2

2017-10-26T06:57:51.337

0 投票

0 回答

286 浏览

r - 从网上刮下一张凌乱的大表并放入数据框中

我正在尝试将http://killedbypolice.net/上的表格导入 R。表格很大并且合并了单元格，所以它并不简单。我的代码的最后一步永远不会结束。如何让表格进入我的 R 会话？

这是我正在尝试的：

问题是最后一行永远运行。我猜它挂在合并的单元格上？

是否有另一种方法可以将 HTML 表格放入数据框中？

r rvest xml2

2017-11-01T19:11:47.617

0 投票

1 回答

260 浏览

r - 递归提取 XML 属性

我有一个 XML 文档：

如何在保留层次关系的同时name从每个中提取属性？Member例如：

编辑：改变目标输出

r xml2

2017-11-01T19:36:01.857

0 投票

2 回答

39 浏览

r - 从 OpenIR 中的相似节点中提取属性

该任务的目标是在 IR 的搜索结果页面中提取关于论文标题的“href”，并将它们作为数据框。这个结果页面的结构不是很好：论文标题、问题信息、作者和下载按钮在同一个字段中，仅用“span”（在“title”、“issue”和“authors”之间）和“sup”分隔”（在“作者”内）。

上面的程序运行没有错误，但“titleLine”有很多冗余，“titlehref”只有一个“class”itemLine“的比赛，但根本没有URL。我的问题是：

如何准确定位论文标题的href？我使用第二层“html_nodes”来保存所有目标href。但是，“sup”标签下的“href”仍在“titleLine”中，“target”也在。我们可以使用“target”属性来定位正确的“href”但不让它们出现在“titleLine”中吗？
我们如何定位具有复杂“值”的属性？在上面的程序中，我只使用“href”。我以前尝试过使用“xpath 样式”，但没有帮助。我想使用命名空间来识别论文的URL，但是我看到ns可能只能从“xmlns”属性中提取，并且无法手动分配（如titlehref <- xml_attrs(titleLine, "href", ns=”http://ir.las.ac.cn/handle”)）

如何拟合这个IR的结构才能得到正确的结果？非常感谢。

r rvest xml2

2017-11-12T10:35:35.237

问题标签 [xml2]

Reference