问题标签 [xml2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1861 浏览

r - R中包含子字符串的属性的Web抓取

我正在使用 R 中的 xml2 包从网页中抓取数据。我要抓取的文本包含在下面显示的标签中:

我尝试在 R 中使用以下代码行:

使用上面的代码,我只想提取具有包含子字符串“javascript”的 href 属性的所有节点,但我在下面收到一条错误消息:

如果有人有任何建议,我将不胜感激。

感谢大家的时间。

干杯。

0 投票
1 回答
193 浏览

amazon-ec2 - 在 R 中的 AWS EC2 Ubuntu 服务器上安装 xml2,libcurl 不是 R 功能

我有一个安装了 R 的 AWS EC2 Ubuntu 实例,我正在尝试安装 xml2。

安装包(“xml2”)

结果是:

警告消息:包 'xml2' 不可用(对于 R 版本 3.0.2)

devtools::install_github("hadley/xml2")

结果是:

从 URL https://api.github.com/repos/hadley/xml2/zipball/master下载 GitHub repo hadley/xml2@master if (capabilities("libcurl")) { 中安装 xml2 错误:参数长度为零

我已经在我的服务器上安装了 libcurl4-openssl-dev,但是当我要求 R

能力()

我得到:

jpeg png tiff tcltk X11 aqua http/ftp 套接字 TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE libxml fifo cledit iconv NLS profmem cairo TRUE TRUE TRUE TRUE TRUE TRUE TRUE

没有 libcurl。

我究竟做错了什么?

谢谢!

0 投票
2 回答
1743 浏览

r - 如何仅从父 HTML 节点(不包括子节点)中提取文本?

我有一个代码:

我正在使用此代码提取文本:

并得到结果:

但我只需要“p”文本,不包括子节点中可能位于“p”内的文本。我必须得到这个文本:

有没有办法在我获取文本时排除子节点?

Mac OS 10.11.6 (15G31)、RSrudio 版本 0.99.903、R 版本 3.3.1 (2016-06-21)

0 投票
2 回答
683 浏览

r - 名称不符合 XML 命名空间

我正在尝试阅读此站点上的表格:

http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16

我使用rvest,但很快得到一个错误:

错误:名称剧透:3tbt4d3m 不符合 XML 命名空间 [202]

这个错误是什么意思,我能做些什么来解决它?

我已经查明导致错误的内部函数:xml2:::doc_parse_raw. 然而,xml2:::doc_parse_raw这只是对内部 C 代码的调用,使得调试这个问题变得更加困难。

0 投票
0 回答
203 浏览

r - 如何搜索雅虎并在 r 中获取链接

我想在雅虎搜索一些东西并想获得链接:

例如:通过 sap wiki 搜索并希望获得类似的输出

基本上我在关注这个问题: 如何获取谷歌搜索结果 我的代码是:

但我得到空列表作为输出。

谢谢..

0 投票
1 回答
2781 浏览

r - 获取内存分配失败:使用 xml2 包增加节点集命中限制

我正在使用 R 中的 xml2 包解析一些非常大的 xml 文件。 read_xml() 成功加载了大文件,但是当我尝试使用 xml_find_all() 时,我得到“错误:内存分配失败:不断增长的节点集命中限制”。我假设这个限制是在 libxml2 中设置的,也许在 XPATH_MAX_NODESET_LENGTH 变量中?所以也许这不是 xml2 包本身的问题。但是在 xml2 中是否有可能的解决方案?我尝试删除节点并释放内存,但没有运气。谢谢。

0 投票
1 回答
3944 浏览

r - R中的网页抓取,“...当前工作目录中不存在”错误

我正在尝试使用 XML2 包从 ESPN.com 上抓取一些表格。例如,我想将第 7 周的幻想四分卫排名刮到 R 中,其 URL 为:

http://www.espn.com/fantasy/football/story/_/page/16ranksWeek7QB/fantasy-football-week-7-quarterback-rankings

我正在尝试使用“read_html()”函数来执行此操作,因为这是我最熟悉的。这是我的语法及其错误:

我也试过“read_xml()”,只是得到同样的错误:

为什么 R 在工作目录中寻找这个 URL?我已经用其他 URL 尝试过这个功能并取得了一些成功。这个特定的 URL 是什么使它看起来与其他 URL 不同的位置?而且,我该如何改变呢?

0 投票
1 回答
2841 浏览

r - XML - 在 R (xml2) 中解析选择性节点

我有一个 XML 输入文件。该文件包含有关某些交易的数据。XML 文件如下所示:

我需要提取交易类型(bs:Prtry)为“Outward”的交易金额。

这是我到目前为止所做的:

这是我接下来需要做的:

  • 向上导航到 out_txns 中的 bs:stmt 标记
  • 找到 bs:Ntry, bs:Amt 标签并提取值

我已经尝试了一些东西(xml_find_parents)但无法找出正确的方法

0 投票
1 回答
407 浏览

r - 在 R 中分块读取和解析 xml

我正在尝试.xml使用 R 从 Wikipedia Dumps 读取和处理 ~5.8GB。我没有那么多 RAM,所以我想分块处理它。(目前使用时xml2::read_xml完全阻塞了我的电脑)

该文件xml包含每个维基百科页面的一个元素,如下所示:

可以在此处找到该文件的示例

从我的角度来看,我认为可以分块读取它,例如文件中的每页一页。Ans 将每个已处理page的元素保存为.csv文件中的一行。

我想要一个包含以下列的data.frame。

id、标题和文本。

我该怎么做才能.xml分块阅读?

0 投票
2 回答
337 浏览

r - 读取 XML 时出现 R 段错误

我有以下 XML 文件

当我尝试加载这个 xml

在 R 中加载 xml 文件之前,我需要评估什么吗?

xml 文件的语法似乎是正确的(根据 web xml 验证器)

我创建了一个新文件并粘贴了那几行,它仍然崩溃了,所以它似乎不是文件格式......

我试过了xml2

我的想法是libXml2这些包使用的库在这里一定有问题......虽然我不知道如何测试这个

我拥有的 libxml2 已经过时了: