问题标签 [xml2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中包含子字符串的属性的Web抓取
我正在使用 R 中的 xml2 包从网页中抓取数据。我要抓取的文本包含在下面显示的标签中:
我尝试在 R 中使用以下代码行:
使用上面的代码,我只想提取具有包含子字符串“javascript”的 href 属性的所有节点,但我在下面收到一条错误消息:
如果有人有任何建议,我将不胜感激。
感谢大家的时间。
干杯。
amazon-ec2 - 在 R 中的 AWS EC2 Ubuntu 服务器上安装 xml2,libcurl 不是 R 功能
我有一个安装了 R 的 AWS EC2 Ubuntu 实例,我正在尝试安装 xml2。
安装包(“xml2”)
结果是:
警告消息:包 'xml2' 不可用(对于 R 版本 3.0.2)
和
devtools::install_github("hadley/xml2")
结果是:
从 URL https://api.github.com/repos/hadley/xml2/zipball/master下载 GitHub repo hadley/xml2@master if (capabilities("libcurl")) { 中安装 xml2 错误:参数长度为零
我已经在我的服务器上安装了 libcurl4-openssl-dev,但是当我要求 R
能力()
我得到:
jpeg png tiff tcltk X11 aqua http/ftp 套接字 TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE libxml fifo cledit iconv NLS profmem cairo TRUE TRUE TRUE TRUE TRUE TRUE TRUE
没有 libcurl。
我究竟做错了什么?
谢谢!
r - 如何仅从父 HTML 节点(不包括子节点)中提取文本?
我有一个代码:
我正在使用此代码提取文本:
并得到结果:
但我只需要“p”文本,不包括子节点中可能位于“p”内的文本。我必须得到这个文本:
有没有办法在我获取文本时排除子节点?
Mac OS 10.11.6 (15G31)、RSrudio 版本 0.99.903、R 版本 3.3.1 (2016-06-21)
r - 名称不符合 XML 命名空间
我正在尝试阅读此站点上的表格:
http://spacefem.com/pregnant/due.php?use=EDD&m=09&d=10&y=16
我使用rvest
,但很快得到一个错误:
错误:名称剧透:3tbt4d3m 不符合 XML 命名空间 [202]
这个错误是什么意思,我能做些什么来解决它?
我已经查明导致错误的内部函数:xml2:::doc_parse_raw
. 然而,xml2:::doc_parse_raw
这只是对内部 C 代码的调用,使得调试这个问题变得更加困难。
r - 获取内存分配失败:使用 xml2 包增加节点集命中限制
我正在使用 R 中的 xml2 包解析一些非常大的 xml 文件。 read_xml() 成功加载了大文件,但是当我尝试使用 xml_find_all() 时,我得到“错误:内存分配失败:不断增长的节点集命中限制”。我假设这个限制是在 libxml2 中设置的,也许在 XPATH_MAX_NODESET_LENGTH 变量中?所以也许这不是 xml2 包本身的问题。但是在 xml2 中是否有可能的解决方案?我尝试删除节点并释放内存,但没有运气。谢谢。
r - R中的网页抓取,“...当前工作目录中不存在”错误
我正在尝试使用 XML2 包从 ESPN.com 上抓取一些表格。例如,我想将第 7 周的幻想四分卫排名刮到 R 中,其 URL 为:
我正在尝试使用“read_html()”函数来执行此操作,因为这是我最熟悉的。这是我的语法及其错误:
我也试过“read_xml()”,只是得到同样的错误:
为什么 R 在工作目录中寻找这个 URL?我已经用其他 URL 尝试过这个功能并取得了一些成功。这个特定的 URL 是什么使它看起来与其他 URL 不同的位置?而且,我该如何改变呢?
r - XML - 在 R (xml2) 中解析选择性节点
我有一个 XML 输入文件。该文件包含有关某些交易的数据。XML 文件如下所示:
我需要提取交易类型(bs:Prtry)为“Outward”的交易金额。
这是我到目前为止所做的:
这是我接下来需要做的:
- 向上导航到 out_txns 中的 bs:stmt 标记
- 找到 bs:Ntry, bs:Amt 标签并提取值
我已经尝试了一些东西(xml_find_parents)但无法找出正确的方法
r - 在 R 中分块读取和解析 xml
我正在尝试.xml
使用 R 从 Wikipedia Dumps 读取和处理 ~5.8GB。我没有那么多 RAM,所以我想分块处理它。(目前使用时xml2::read_xml
完全阻塞了我的电脑)
该文件xml
包含每个维基百科页面的一个元素,如下所示:
可以在此处找到该文件的示例
从我的角度来看,我认为可以分块读取它,例如文件中的每页一页。Ans 将每个已处理page
的元素保存为.csv
文件中的一行。
我想要一个包含以下列的data.frame。
id、标题和文本。
我该怎么做才能.xml
分块阅读?
r - 读取 XML 时出现 R 段错误
我有以下 XML 文件
当我尝试加载这个 xml
在 R 中加载 xml 文件之前,我需要评估什么吗?
xml 文件的语法似乎是正确的(根据 web xml 验证器)
我创建了一个新文件并粘贴了那几行,它仍然崩溃了,所以它似乎不是文件格式......
我试过了xml2
我的想法是libXml2
这些包使用的库在这里一定有问题......虽然我不知道如何测试这个
我拥有的 libxml2 已经过时了: