问题标签 [xml2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1682 浏览

r - 在 Fedora 27 的 R 中安装 xml2

我在运行 Fedora 27 的 RStudio 中安装 xml2 时遇到问题。在运行install.packages('xml2')时,我收到以下错误:

我注意到在我的/usr/lib64/,我libicui18n.so.57只有,所以我尝试在那里复制一个libicui18n.so.58,我得到了以下错误:

而且我注意到了同样的问题——我有这个库的 .57 版本,而不是 .58 版本。在我一遍又一遍地重复之前,这实际上是一个共享库问题吗?或者,有没有办法一次性解决这个问题?

我已经安装了 xml2 ( libxml2-devel-2.9.5-2.fc27.x86_64)。

0 投票
1 回答
274 浏览

r - 使用 xml2 解析 html 注释

我开始尝试使用xml2-package 来解析一些 Rmarkdown 文件。现在,我对以结构化方式解析 html-comments 以及解析部分之间的信息(例如####等)非常感兴趣

我目前访问评论内容的尝试可以在下面找到。


我敢肯定,有更好的方法吗?理想情况下,我会得到评论并保持层次结构(这些评论所属的标题,例如)

0 投票
4 回答
2263 浏览

r - R 可以读取 html 编码的表情符号字符吗?

问题

我的问题如下所述:

如何使用 R 来读取包含 HTML 表情符号代码的字符串��

我想: (1)在解析的字符串中
表示表情符号(例如,作为unicode符号:),或者(2)将其转换为等效的文本(“ ”)
:hugging face:

背景

我有一个文本消息的 XML 数据集(来自 Android/iOS 应用Signal),我正在将其读入 R 以进行文本挖掘项目。数据如下所示,每个文本消息都表示在一个sms节点中:

问题

我目前正在使用xml2R 的包读取数据。但是,当我使用该xml2::read_xml函数时,我收到以下错误消息:

据我了解,这表明表情符号字符未被识别为有效的 XML。

使用该xml2::read_html功能确实有效,但会删除表情符号字符。这里有一个小例子:

(输出[1] "Hugging emoji: ":)

这个字符有效的 HTML——谷歌搜索��实际上将它在搜索栏中转换为“拥抱脸”表情符号,并显示与该表情符号相关的结果。

我发现的其他信息似乎与这个问题有关

我一直在搜索 Stack Overflow,但没有找到与此特定问题相关的任何问题。我也无法找到一个表格,在它们所代表的表情符号旁边直接给出 HTML 代码,因此无法在解析之前在一个大循环中将这些 HTML 代码(尽管效率低下)转换为它们的文本等价物数据集;例如,此列表及其基础数据集似乎都不包含字符串55358

0 投票
1 回答
149 浏览

r - 使用 R 完成 Web 表单并获取响应?

所以,这是目前的情况:

  1. 我有 2000 多行 R 代码,可以生成几十个文本文件。此代码在 10 秒内运行。
  2. 然后我手动将这些文本文件中的每一个粘贴到网站中,等待大约 1 分钟等待网站的响应(它们是大文本文件),然后手动将响应复制并粘贴到 Excel 中,最后再次将它们另存为文本文件。这需要数小时并且容易出现用户错误。
  3. 然后,另外约 600 行 R 代码将这几十个文本文件组合成一个分析。这需要几分钟。

我想自动化第 2 步——我想我已经接近了,我只是不能让它工作。这是一些示例代码:

代码运行,每次我完成它时,“balcoResults”都会返回“状态:200”。成功!除了文件大小为0...

我不知道问题出在哪里,但我最好的猜测是在提交表单之前没有填写文本块。如果我去网站(http://hess.ess.washington.edu/math/v3/v3_age_in.html)并手动提交一个空表格,它会产生一个空白网页:纯白色,上面什么都没有。

这种潜在解释(以及我修复代码)的问题是我不知道为什么不会填写文本块。set_values 的结果告诉我“text_block”中有 120 个字符。这是 textString 的正确长度。我不知道为什么这 120 个字符不会粘贴到 Web 表单中。

另一种可能性是 R 没有等待足够长的时间来获得来自网站的响应,但这似乎不太可能,因为单个样本(如这里)运行很快并且响应的状态代码200。

昨天我参加了关于“在 R 中使用 Web 数据”的 DataCamp 课程。我已经从 httr 包中探索了 GET 和 POST,但我不知道如何分离 GET 响应来修改表单,然后让 POST 提交它。我考虑过尝试使用 RSelenium 包,但根据我所读到的内容,我必须下载并安装“Selenium Server”。这让我感到害怕,但我可能会这样做——如果我确信 RSelenium 会解决我的问题。当我在 CRAN 中查看 RSelenium 包中的函数名称时,不清楚哪些对我有帮助。如果没有关于 RSelenium 将如何解决我的问题的确切知识,或者即使它会,这似乎是所需时间投资的低回报。(但如果你们告诉我这是要走的路,以及要使用哪些功能,我

我已经探索了 SO 以进行修复,但我发现的所有帖子都没有帮助。我看过这里这里这里,列出三个。

有什么建议么?

0 投票
1 回答
442 浏览

r - 使用带有 xml2 的正则表达式?

考虑这个简单的例子

现在,运行它按预期工作

但寻找其text属性包含wor不的节点。

这里有什么问题?如何使用正则表达式(或部分字符串匹配)xml2

谢谢!

0 投票
1 回答
2508 浏览

r - //parent::* 在 XPath 中?

考虑这个简单的例子

现在,我想找到包含字符串的节点的所有父节点other 为此,我运行

我不明白为什么我也得到了<b>other</b>元素。在我看来,只有一个父节点,即第一个节点。

这是一个错误吗?

0 投票
2 回答
710 浏览

r - 使用 xml2 将子节点添加到节点

我觉得这很容易,但我无法让它工作。

假设我有这个节点

我只想像这样向节点添加第 13 个孩子:

<whatever> <other> hello </other> </whatever>

我确实查看了修改小插图,xml2但我无法让它工作,因为add_new_child<字符转换为 scaped xml 字符。

有任何想法吗?

test.xml: _

0 投票
1 回答
195 浏览

r - 如何使用 xml2 排除节点

过去几天我一直在搜索,我看到在 XPath v2 中您可以使用“except”运算符,但无法弄清楚 xml2 如何处理这个问题。

这个链接是我想要做的,但这是特定于 XPath 的,我正在尝试像在这个 SO answer 中那样对节点进行全面排除。

例如,我的测试文档是.docx我解压缩并阅读的。它有正文和表格。我想阅读所有正文,除了表格中的任何内容。我可以阅读两者,但我不知道如何排除所有w:tbl. 任何notexcept运算符似乎都不起作用。

xml_find_all它刮掉这些节点内的任何东西,无一例外。

0 投票
1 回答
342 浏览

html - R 节点 {xml_nodeset} 到 xml 或 html

取由xml2::read_html/生成的任何假设节点rvest,例如:

有什么办法可以转换e回html?我能做的最接近的事情是:

0 投票
1 回答
987 浏览

r - 如何使用 xml2 和 purrr 提取不同级别的 xml_attr 和 xml_text?

我想从 XML 文件中提取信息并将其转换为数据框。

信息以 XML 文本和 XML 属性的形式存储在嵌套节点中:

一个示例结构:

我想得到这些信息:

我需要一个像这样的长格式数据框:

我尝试遵循 Jenny Bryans 的方法“如何使用嵌套数据框和 purrr 驯服 XML”,但它只适用于第一级。

你有想法来获取这些信息purrr吗?