问题标签 [xml2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 Fedora 27 的 R 中安装 xml2
我在运行 Fedora 27 的 RStudio 中安装 xml2 时遇到问题。在运行install.packages('xml2')
时,我收到以下错误:
我注意到在我的/usr/lib64/
,我libicui18n.so.57
只有,所以我尝试在那里复制一个libicui18n.so.58
,我得到了以下错误:
而且我注意到了同样的问题——我有这个库的 .57 版本,而不是 .58 版本。在我一遍又一遍地重复之前,这实际上是一个共享库问题吗?或者,有没有办法一次性解决这个问题?
我已经安装了 xml2 ( libxml2-devel-2.9.5-2.fc27.x86_64
)。
r - 使用 xml2 解析 html 注释
我开始尝试使用xml2
-package 来解析一些 Rmarkdown 文件。现在,我对以结构化方式解析 html-comments 以及解析部分之间的信息(例如####
等)非常感兴趣
我目前访问评论内容的尝试可以在下面找到。
我敢肯定,有更好的方法吗?理想情况下,我会得到评论并保持层次结构(这些评论所属的标题,例如)
r - R 可以读取 html 编码的表情符号字符吗?
问题
我的问题如下所述:
如何使用 R 来读取包含 HTML 表情符号代码的字符串��
?
我想: (1)在解析的字符串中
表示表情符号(例如,作为unicode符号:),或者(2)将其转换为等效的文本(“ ”):hugging face:
背景
我有一个文本消息的 XML 数据集(来自 Android/iOS 应用Signal),我正在将其读入 R 以进行文本挖掘项目。数据如下所示,每个文本消息都表示在一个sms
节点中:
问题
我目前正在使用xml2
R 的包读取数据。但是,当我使用该xml2::read_xml
函数时,我收到以下错误消息:
据我了解,这表明表情符号字符未被识别为有效的 XML。
使用该xml2::read_html
功能确实有效,但会删除表情符号字符。这里有一个小例子:
(输出[1] "Hugging emoji: "
:)
这个字符是有效的 HTML——谷歌搜索��
实际上将它在搜索栏中转换为“拥抱脸”表情符号,并显示与该表情符号相关的结果。
我发现的其他信息似乎与这个问题有关
我一直在搜索 Stack Overflow,但没有找到与此特定问题相关的任何问题。我也无法找到一个表格,在它们所代表的表情符号旁边直接给出 HTML 代码,因此无法在解析之前在一个大循环中将这些 HTML 代码(尽管效率低下)转换为它们的文本等价物数据集;例如,此列表及其基础数据集似乎都不包含字符串55358
。
r - 使用 R 完成 Web 表单并获取响应?
所以,这是目前的情况:
- 我有 2000 多行 R 代码,可以生成几十个文本文件。此代码在 10 秒内运行。
- 然后我手动将这些文本文件中的每一个粘贴到网站中,等待大约 1 分钟等待网站的响应(它们是大文本文件),然后手动将响应复制并粘贴到 Excel 中,最后再次将它们另存为文本文件。这需要数小时并且容易出现用户错误。
- 然后,另外约 600 行 R 代码将这几十个文本文件组合成一个分析。这需要几分钟。
我想自动化第 2 步——我想我已经接近了,我只是不能让它工作。这是一些示例代码:
代码运行,每次我完成它时,“balcoResults”都会返回“状态:200”。成功!除了文件大小为0...
我不知道问题出在哪里,但我最好的猜测是在提交表单之前没有填写文本块。如果我去网站(http://hess.ess.washington.edu/math/v3/v3_age_in.html)并手动提交一个空表格,它会产生一个空白网页:纯白色,上面什么都没有。
这种潜在解释(以及我修复代码)的问题是我不知道为什么不会填写文本块。set_values 的结果告诉我“text_block”中有 120 个字符。这是 textString 的正确长度。我不知道为什么这 120 个字符不会粘贴到 Web 表单中。
另一种可能性是 R 没有等待足够长的时间来获得来自网站的响应,但这似乎不太可能,因为单个样本(如这里)运行很快并且响应的状态代码是200。
昨天我参加了关于“在 R 中使用 Web 数据”的 DataCamp 课程。我已经从 httr 包中探索了 GET 和 POST,但我不知道如何分离 GET 响应来修改表单,然后让 POST 提交它。我考虑过尝试使用 RSelenium 包,但根据我所读到的内容,我必须下载并安装“Selenium Server”。这让我感到害怕,但我可能会这样做——如果我确信 RSelenium 会解决我的问题。当我在 CRAN 中查看 RSelenium 包中的函数名称时,不清楚哪些对我有帮助。如果没有关于 RSelenium 将如何解决我的问题的确切知识,或者即使它会,这似乎是所需时间投资的低回报。(但如果你们告诉我这是要走的路,以及要使用哪些功能,我
我已经探索了 SO 以进行修复,但我发现的所有帖子都没有帮助。我看过这里、这里和这里,列出三个。
有什么建议么?
r - 使用带有 xml2 的正则表达式?
考虑这个简单的例子
现在,运行它按预期工作
但寻找其text
属性包含wor
不的节点。
这里有什么问题?如何使用正则表达式(或部分字符串匹配)xml2
?
谢谢!
r - //parent::* 在 XPath 中?
考虑这个简单的例子
现在,我想找到包含字符串的节点的所有父节点other
为此,我运行
我不明白为什么我也得到了<b>other</b>
元素。在我看来,只有一个父节点,即第一个节点。
这是一个错误吗?
r - 使用 xml2 将子节点添加到节点
我觉得这很容易,但我无法让它工作。
假设我有这个节点
我只想像这样向节点添加第 13 个孩子:
<whatever> <other> hello </other> </whatever>
我确实查看了修改小插图,xml2
但我无法让它工作,因为add_new_child
将<
字符转换为 scaped xml 字符。
有任何想法吗?
test.xml
: _
r - 如何使用 xml2 排除节点
过去几天我一直在搜索,我看到在 XPath v2 中您可以使用“except”运算符,但无法弄清楚 xml2 如何处理这个问题。
这个链接是我想要做的,但这是特定于 XPath 的,我正在尝试像在这个 SO answer 中那样对节点进行全面排除。
例如,我的测试文档是.docx
我解压缩并阅读的。它有正文和表格。我想阅读所有正文,除了表格中的任何内容。我可以阅读两者,但我不知道如何排除所有w:tbl
. 任何not
或except
运算符似乎都不起作用。
用xml_find_all
它刮掉这些节点内的任何东西,无一例外。
html - R 节点 {xml_nodeset} 到 xml 或 html
取由xml2::read_html
/生成的任何假设节点rvest
,例如:
有什么办法可以转换e
回html?我能做的最接近的事情是:
r - 如何使用 xml2 和 purrr 提取不同级别的 xml_attr 和 xml_text?
我想从 XML 文件中提取信息并将其转换为数据框。
信息以 XML 文本和 XML 属性的形式存储在嵌套节点中:
一个示例结构:
我想得到这些信息:
我需要一个像这样的长格式数据框:
我尝试遵循 Jenny Bryans 的方法“如何使用嵌套数据框和 purrr 驯服 XML”,但它只适用于第一级。
你有想法来获取这些信息purrr
吗?