问题标签 [stringr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
124 浏览

r - 从字符串中提取元素

假设我有以下数据集,其中列的结构如下。

如您所见,每一列都代表一个城市,但列名的结构是不可管理的。我想知道是否有人可以帮助我弄清楚如何从列名字符串中提取城市名称。

我可以拥有每个城市的字典并进行字符串匹配,但我运气不佳。我还假设有一种方法可以使用 str_split 来做到这一点,但我还没有弄清楚。

当然,我确信也有一个 gsub 解决方案,但是在正则表达式方面我有点无能。

最终,我只想将实际的城市名称作为列名。

0 投票
3 回答
22327 浏览

r - Detect multiple strings with dplyr and stringr

I'm trying to combine dplyr and stringr to detect multiple patterns in a dataframe. I want to use dplyr as I want to test a number of different columns.

Here's some sample data:

What I would like to use is something like:

and receive

A very simple test works

But I can't get this to work over the column of the dataframe, even without dplyr:

Does anyone know how to do this?

0 投票
2 回答
462 浏览

r - dplyr:使用链式传递变量

我是新手,dplyr无法弄清楚如何控制变量通过链接(%>%)命令。简单的例子:str_sub函数接受三个参数——第一个是通过传递的,%>%但我怎样才能得到最后两个?:

在基础 RI 中可以这样做:

并得到:

这个怎么串?- 我试过:

0 投票
3 回答
2322 浏览

r - 使用不同长度向量的 tidyr 分离

我想将一列字符串(例如 [1, 58, 10] )分隔成使用与 tidyr 分开的列。我的问题是有时列更短(永远不会更长)。我在同一个数据框中有很多关于这个问题的列。

加载包

数据

在这里,我使用来自真实数据的样本制作了一个数据框。“向量”在 col1 中的长度为 10,在 col2 中的长度为 9 或 10。有一个时间列只是为了表明还有其他列。

我希望它如何

对于所有“向量”长度相等的第一列,我可以使用 separate() 来获得我想要的。

这导致

这不适用于 col2 元素不能分成几列的地方

解决方法

这导致

如果向量较短,则最后一个元素应为 NA,因此这是正确的。

问题

有没有办法使用单独的(或其他更简单的功能)而不是解决方法?有没有办法同时将其应用于 col1 和 col2(例如,通过选择以 col 开头的列)?

谢谢!

0 投票
1 回答
58 浏览

r - 将 stringr 函数传递到 data.table 时无法正确解析

这里有点奇怪。我有一个文件根列表,我想从每个根中提取终端文件名。stringr 函数的丑陋组合通过检测字符串中的最后一个“/”字符然后从后面提取来完成这项工作。

现在奇怪的是,该函数在单独应用于任何一个字符串时工作正常,但在向下传递 data.table 时似乎不能正确应用:

我可以将 strsplit 函数放在一起使用 sapply 向下数据表完成这项工作,但实际上 file_list 将有数十万行长,并且 sapply 将花费非常长的时间。

所以我的问题是。知道为什么原始功能不起作用,以及如何修复它吗?或者,我怎样才能让 find_name 函数更快地工作?

提前致谢....

0 投票
1 回答
273 浏览

r - 向量化字符串 str_match 以删除 for 循环

如何使用 R 向量化来删除这个 for 循环?

这不起作用:

0 投票
1 回答
188 浏览

regex - str_match 中的括号改变匹配

我正在尝试提取 url 中两个斜线之间的内容,为此我正在使用stringrfunction str_match

我设法提取了完整的字符串:

但是,当我添加括号以提取字符串中的匹配项时,结果会意外更改:

必须是如何在正则表达式中解释括号的问题。有什么线索吗?

0 投票
0 回答
419 浏览

r - 使用 str_extract_all 从文本中提取模式作为主题标签

我对包“stringr”的功能有疑问:str_extract_all 我想在字符向量中提取模式(在我的情况下为主题标签)。我的数据是:

和我的脚本:

该功能有效,但效果不佳。输出全是字符(0)。我该如何纠正?我尝试使用另一种方法来使用此功能提取主题标签:

但是当我使用它时,我有一个错误,输出如下:

我的数据是这样的:

非常感谢

0 投票
6 回答
4879 浏览

r - 解析包含(不间断空格)的html

rvest用来解析网站。我正在用这些小的非破坏空间撞墙。如何删除 已解析的 html 文档中的元素创建的空白?

现在我已经提取了正文:

但是,我无法删除那个讨厌的空格!

0 投票
1 回答
547 浏览

r - unlist 保持相同数量的元素(矢量化)

我正在尝试从一些推文中提取所有主题标签,并为每条推文获取一个包含所有主题标签的字符串。我正在使用str_extractfrom stringr,所以我获得了一个字符向量列表。我的问题是我没有设法取消它并保持列表中相同数量的元素(即推文的数量)。例子:

这是长度为 3 的推文向量:

现在我str_extract_all用来提取主题标签:

如果我现在使用unlist,我会得到一个长度为 5 的向量:

我想要的是类似下面的东西。然而,这是非常低效的,因为它没有被矢量化,并且它需要永远(真的!)在一个小的推文数据帧上:

帮助!