问题标签 [xml2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

261 问题

0 投票

1 回答

1861 浏览

r - R中包含子字符串的属性的Web抓取

我正在使用 R 中的 xml2 包从网页中抓取数据。我要抓取的文本包含在下面显示的标签中：

我尝试在 R 中使用以下代码行：

使用上面的代码，我只想提取具有包含子字符串“javascript”的 href 属性的所有节点，但我在下面收到一条错误消息：

如果有人有任何建议，我将不胜感激。

感谢大家的时间。

干杯。

r xpath rvest xml2

2016-08-08T21:14:18.340

0 投票

1 回答

193 浏览

amazon-ec2 - 在 R 中的 AWS EC2 Ubuntu 服务器上安装 xml2，libcurl 不是 R 功能

我有一个安装了 R 的 AWS EC2 Ubuntu 实例，我正在尝试安装 xml2。

安装包（“xml2”）

结果是：

警告消息：包 'xml2' 不可用（对于 R 版本 3.0.2）

和

devtools::install_github("hadley/xml2")

结果是：

从 URL https://api.github.com/repos/hadley/xml2/zipball/master下载 GitHub repo hadley/xml2@master if (capabilities("libcurl")) { 中安装 xml2 错误：参数长度为零

我已经在我的服务器上安装了 libcurl4-openssl-dev，但是当我要求 R

能力（）

我得到：

jpeg png tiff tcltk X11 aqua http/ftp 套接字 TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE libxml fifo cledit iconv NLS profmem cairo TRUE TRUE TRUE TRUE TRUE TRUE TRUE

没有 libcurl。

我究竟做错了什么？

谢谢！

amazon-ec2 libcurl xml2

2016-08-23T00:37:13.633

0 投票

2 回答

1743 浏览

r - 如何仅从父 HTML 节点（不包括子节点）中提取文本？

我有一个代码：

我正在使用此代码提取文本：

并得到结果：

但我只需要“p”文本，不包括子节点中可能位于“p”内的文本。我必须得到这个文本：

有没有办法在我获取文本时排除子节点？

Mac OS 10.11.6 (15G31)、RSrudio 版本 0.99.903、R 版本 3.3.1 (2016-06-21)

r web-scraping html-parsing rvest xml2

2016-08-31T06:25:34.860

0 投票

2 回答

683 浏览

r - 名称不符合 XML 命名空间

我正在尝试阅读此站点上的表格：

http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16

我使用rvest，但很快得到一个错误：

错误：名称剧透：3tbt4d3m 不符合 XML 命名空间 [202]

这个错误是什么意思，我能做些什么来解决它？

我已经查明导致错误的内部函数：xml2:::doc_parse_raw. 然而，xml2:::doc_parse_raw这只是对内部 C 代码的调用，使得调试这个问题变得更加困难。

r rvest xml2

2016-09-01T22:38:33.410

0 投票

0 回答

203 浏览

r - 如何搜索雅虎并在 r 中获取链接

我想在雅虎搜索一些东西并想获得链接：

例如：通过 sap wiki 搜索并希望获得类似的输出

基本上我在关注这个问题：如何获取谷歌搜索结果我的代码是：

但我得到空列表作为输出。

谢谢..

r web-scraping rcurl rvest xml2

2016-09-14T15:13:15.207

0 投票

1 回答

2781 浏览

r - 获取内存分配失败：使用 xml2 包增加节点集命中限制

我正在使用 R 中的 xml2 包解析一些非常大的 xml 文件。 read_xml() 成功加载了大文件，但是当我尝试使用 xml_find_all() 时，我得到“错误：内存分配失败：不断增长的节点集命中限制”。我假设这个限制是在 libxml2 中设置的，也许在 XPATH_MAX_NODESET_LENGTH 变量中？所以也许这不是 xml2 包本身的问题。但是在 xml2 中是否有可能的解决方案？我尝试删除节点并释放内存，但没有运气。谢谢。

r libxml2 xml2

2016-10-20T16:33:25.063

0 投票

1 回答

3944 浏览

r - R中的网页抓取，“...当前工作目录中不存在”错误

我正在尝试使用 XML2 包从 ESPN.com 上抓取一些表格。例如，我想将第 7 周的幻想四分卫排名刮到 R 中，其 URL 为：

http://www.espn.com/fantasy/football/story/_/page/16ranksWeek7QB/fantasy-football-week-7-quarterback-rankings

我正在尝试使用“read_html()”函数来执行此操作，因为这是我最熟悉的。这是我的语法及其错误：

我也试过“read_xml()”，只是得到同样的错误：

为什么 R 在工作目录中寻找这个 URL？我已经用其他 URL 尝试过这个功能并取得了一些成功。这个特定的 URL 是什么使它看起来与其他 URL 不同的位置？而且，我该如何改变呢？

r web-scraping xml2

2016-10-25T03:18:49.097

0 投票

1 回答

2841 浏览

r - XML - 在 R (xml2) 中解析选择性节点

我有一个 XML 输入文件。该文件包含有关某些交易的数据。XML 文件如下所示：

我需要提取交易类型（bs：Prtry）为“Outward”的交易金额。

这是我到目前为止所做的：

这是我接下来需要做的：

向上导航到 out_txns 中的 bs:stmt 标记
找到 bs:Ntry, bs:Amt 标签并提取值

我已经尝试了一些东西（xml_find_parents）但无法找出正确的方法

r xml xml2

2016-10-31T04:57:25.207

0 投票

1 回答

407 浏览

r - 在 R 中分块读取和解析 xml

我正在尝试.xml使用 R 从 Wikipedia Dumps 读取和处理 ~5.8GB。我没有那么多 RAM，所以我想分块处理它。（目前使用时xml2::read_xml完全阻塞了我的电脑）

该文件xml包含每个维基百科页面的一个元素，如下所示：

可以在此处找到该文件的示例

从我的角度来看，我认为可以分块读取它，例如文件中的每页一页。Ans 将每个已处理page的元素保存为.csv文件中的一行。

我想要一个包含以下列的data.frame。

id、标题和文本。

我该怎么做才能.xml分块阅读？

r xml xml2

2016-11-03T16:59:45.990

0 投票

2 回答

337 浏览

r - 读取 XML 时出现 R 段错误

我有以下 XML 文件

当我尝试加载这个 xml

在 R 中加载 xml 文件之前，我需要评估什么吗？

xml 文件的语法似乎是正确的（根据 web xml 验证器）

我创建了一个新文件并粘贴了那几行，它仍然崩溃了，所以它似乎不是文件格式......

我试过了xml2

我的想法是libXml2这些包使用的库在这里一定有问题......虽然我不知道如何测试这个

我拥有的 libxml2 已经过时了：

r xml segmentation-fault xml2

2016-11-04T08:02:31.213

1 2 3 4 5 6 7 8 9 10

问题标签 [xml2]

Reference