0 投票

2 回答

1682 浏览

r - 在 Fedora 27 的 R 中安装 xml2

我在运行 Fedora 27 的 RStudio 中安装 xml2 时遇到问题。在运行install.packages('xml2')时，我收到以下错误：

我注意到在我的/usr/lib64/，我libicui18n.so.57只有，所以我尝试在那里复制一个libicui18n.so.58，我得到了以下错误：

而且我注意到了同样的问题——我有这个库的 .57 版本，而不是 .58 版本。在我一遍又一遍地重复之前，这实际上是一个共享库问题吗？或者，有没有办法一次性解决这个问题？

我已经安装了 xml2 ( libxml2-devel-2.9.5-2.fc27.x86_64)。

r fedora libxml2 xml2

2017-12-16T22:35:09.553

0 投票

1 回答

274 浏览

r - 使用 xml2 解析 html 注释

我开始尝试使用xml2-package 来解析一些 Rmarkdown 文件。现在，我对以结构化方式解析 html-comments 以及解析部分之间的信息（例如####等）非常感兴趣

我目前访问评论内容的尝试可以在下面找到。

我敢肯定，有更好的方法吗？理想情况下，我会得到评论并保持层次结构（这些评论所属的标题，例如）

r r-markdown xml2

2017-12-20T15:39:37.520

0 投票

4 回答

2263 浏览

问题

我的问题如下所述：

如何使用 R 来读取包含 HTML 表情符号代码的字符串&#55358;&#56599;？

我想：（1）在解析的字符串中
表示表情符号（例如，作为unicode符号：），或者（2）将其转换为等效的文本（“ ”）
:hugging face:

背景

我有一个文本消息的 XML 数据集（来自 Android/iOS 应用Signal），我正在将其读入 R 以进行文本挖掘项目。数据如下所示，每个文本消息都表示在一个sms节点中：

问题

我目前正在使用xml2R 的包读取数据。但是，当我使用该xml2::read_xml函数时，我收到以下错误消息：

据我了解，这表明表情符号字符未被识别为有效的 XML。

使用该xml2::read_html功能确实有效，但会删除表情符号字符。这里有一个小例子：

（输出[1] "Hugging emoji: "：）

这个字符是有效的 HTML——谷歌搜索&#55358;&#56599;实际上将它在搜索栏中转换为“拥抱脸”表情符号，并显示与该表情符号相关的结果。

我发现的其他信息似乎与这个问题有关

我一直在搜索 Stack Overflow，但没有找到与此特定问题相关的任何问题。我也无法找到一个表格，在它们所代表的表情符号旁边直接给出 HTML 代码，因此无法在解析之前在一个大循环中将这些 HTML 代码（尽管效率低下）转换为它们的文本等价物数据集；例如，此列表及其基础数据集似乎都不包含字符串55358。

r xml emoji html-encode xml2

2018-01-07T23:47:34.143

0 投票

1 回答

149 浏览

r - 使用 R 完成 Web 表单并获取响应？

所以，这是目前的情况：

我有 2000 多行 R 代码，可以生成几十个文本文件。此代码在 10 秒内运行。
然后我手动将这些文本文件中的每一个粘贴到网站中，等待大约 1 分钟等待网站的响应（它们是大文本文件），然后手动将响应复制并粘贴到 Excel 中，最后再次将它们另存为文本文件。这需要数小时并且容易出现用户错误。
然后，另外约 600 行 R 代码将这几十个文本文件组合成一个分析。这需要几分钟。

我想自动化第 2 步——我想我已经接近了，我只是不能让它工作。这是一些示例代码：

代码运行，每次我完成它时，“balcoResults”都会返回“状态：200”。成功！除了文件大小为0...

我不知道问题出在哪里，但我最好的猜测是在提交表单之前没有填写文本块。如果我去网站（http://hess.ess.washington.edu/math/v3/v3_age_in.html）并手动提交一个空表格，它会产生一个空白网页：纯白色，上面什么都没有。

这种潜在解释（以及我修复代码）的问题是我不知道为什么不会填写文本块。set_values 的结果告诉我“text_block”中有 120 个字符。这是 textString 的正确长度。我不知道为什么这 120 个字符不会粘贴到 Web 表单中。

另一种可能性是 R 没有等待足够长的时间来获得来自网站的响应，但这似乎不太可能，因为单个样本（如这里）运行很快并且响应的状态代码是200。

昨天我参加了关于“在 R 中使用 Web 数据”的 DataCamp 课程。我已经从 httr 包中探索了 GET 和 POST，但我不知道如何分离 GET 响应来修改表单，然后让 POST 提交它。我考虑过尝试使用 RSelenium 包，但根据我所读到的内容，我必须下载并安装“Selenium Server”。这让我感到害怕，但我可能会这样做——如果我确信 RSelenium 会解决我的问题。当我在 CRAN 中查看 RSelenium 包中的函数名称时，不清楚哪些对我有帮助。如果没有关于 RSelenium 将如何解决我的问题的确切知识，或者即使它会，这似乎是所需时间投资的低回报。（但如果你们告诉我这是要走的路，以及要使用哪些功能，我

我已经探索了 SO 以进行修复，但我发现的所有帖子都没有帮助。我看过这里、这里和这里，列出三个。

有什么建议么？

r web-scraping rvest httr xml2

2018-01-18T14:00:43.803

0 投票

1 回答

442 浏览

r - 使用带有 xml2 的正则表达式？

考虑这个简单的例子

现在，运行它按预期工作

但寻找其text属性包含wor不的节点。

这里有什么问题？如何使用正则表达式（或部分字符串匹配）xml2？

谢谢！

r regex xpath xml2

2018-02-07T21:45:11.863

0 投票

1 回答

2508 浏览

r - //parent::* 在 XPath 中？

考虑这个简单的例子

现在，我想找到包含字符串的节点的所有父节点other 为此，我运行

我不明白为什么我也得到了<b>other</b>元素。在我看来，只有一个父节点，即第一个节点。

这是一个错误吗？

r xml xpath xml2

2018-02-08T14:22:44.600

0 投票

2 回答

710 浏览

r - 使用 xml2 将子节点添加到节点

我觉得这很容易，但我无法让它工作。

假设我有这个节点

我只想像这样向节点添加第 13 个孩子：

<whatever> <other> hello </other> </whatever>

我确实查看了修改小插图，xml2但我无法让它工作，因为add_new_child将<字符转换为 scaped xml 字符。

有任何想法吗？

test.xml: _

r xml2

2018-02-12T16:38:25.803

0 投票

1 回答

195 浏览

r - 如何使用 xml2 排除节点

过去几天我一直在搜索，我看到在 XPath v2 中您可以使用“except”运算符，但无法弄清楚 xml2 如何处理这个问题。

这个链接是我想要做的，但这是特定于 XPath 的，我正在尝试像在这个 SO answer 中那样对节点进行全面排除。

例如，我的测试文档是.docx我解压缩并阅读的。它有正文和表格。我想阅读所有正文，除了表格中的任何内容。我可以阅读两者，但我不知道如何排除所有w:tbl. 任何not或except运算符似乎都不起作用。

用xml_find_all它刮掉这些节点内的任何东西，无一例外。

r xml xpath xml2

2018-02-15T16:46:58.027

0 投票

1 回答

342 浏览

html - R 节点 {xml_nodeset} 到 xml 或 html

取由xml2::read_html/生成的任何假设节点rvest，例如：

有什么办法可以转换e回html？我能做的最接近的事情是：

html r xml-parsing rvest xml2

2018-02-15T21:30:45.347

0 投票

1 回答

987 浏览

r - 如何使用 xml2 和 purrr 提取不同级别的 xml_attr 和 xml_text？

我想从 XML 文件中提取信息并将其转换为数据框。

信息以 XML 文本和 XML 属性的形式存储在嵌套节点中：

一个示例结构：

我想得到这些信息：

我需要一个像这样的长格式数据框：

我尝试遵循 Jenny Bryans 的方法“如何使用嵌套数据框和 purrr 驯服 XML”，但它只适用于第一级。

你有想法来获取这些信息purrr吗？

r dplyr tidyverse purrr xml2

2018-03-13T09:52:48.987

问题标签 [xml2]

r - 在 Fedora 27 的 R 中安装 xml2

r - 使用 xml2 解析 html 注释

r - R 可以读取 html 编码的表情符号字符吗？

问题

背景

问题

我发现的其他信息似乎与这个问题有关

r - 使用 R 完成 Web 表单并获取响应？

r - 使用带有 xml2 的正则表达式？

r - //parent::* 在 XPath 中？

r - 使用 xml2 将子节点添加到节点

r - 如何使用 xml2 排除节点

html - R 节点 {xml_nodeset} 到 xml 或 html

r - 如何使用 xml2 和 purrr 提取不同级别的 xml_attr 和 xml_text？

问题标签 [xml2]

问题

背景

问题

我发现的其他信息似乎与这个问题有关

Reference