问题标签 [grepl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1745 浏览

r - Add column by using strings of another column

I am looking to add a column in my dataframe using the transform function. One of my column contains character strings as elements. I wish to find certain strings and add another column.

I wish to add another column to classify category of data and get the following result:

I used the following code but it doesn't work.

Warning in R : In if (grepl("A", dataset.1$UNIT.NO.) == T) { : the condition has length > 1 and only the first element will be used

Hence, all my Category values are now A and different characters are not being replaced as per their Unit No. What is the best way to add such a column.

I need these categories to perform a non parametric analysis. Thanks in advance.

0 投票
3 回答
195 浏览

r - 在 R 中解析多个字符串上的数据

我正在尝试编写一个代码,该代码将解析包含多条信息的单个列。例如,假设我有以下名为 df 的数据框:

当我运行 table(df) 时,您会得到以下信息:

我想做的是1.将信息列分成2列,一列用于形状,一列用于颜色,2.将具有多种颜色的任何ID分配为“多色”。所以我写了以下内容:

从这段代码我得到输出:

正如我的代码所写的那样,它是说像这样的实例101 red;circle是多色的,而实际上它不是,只是红色和一个圆圈。当“圆圈”可以出现在开头,中间或结尾的信息列中时,解析此数据的正确方法是什么。欢迎任何和所有建议,谢谢!

0 投票
1 回答
41951 浏览

r - 结合 grepl 在 dplyr 中过滤观察结果

我正在尝试研究如何使用dplyrand过滤来自大型数据集的一些观察结果greplgrepl如果其他解决方案会更理想,我不喜欢。

拿这个样本df:

我想要:

  1. 过滤掉那些以“x”开头的案例
  2. 过滤掉那些以 'xx' 结尾的情况

我已经设法弄清楚如何摆脱包含“x”或“xx”的所有内容,但不是以开头或结尾。以下是如何摆脱内部带有“xx”的所有内容(不仅仅是以结尾):

这显然是“错误地”(从我的角度来看)过滤了“appxxle”。

I have never fully got to grips with regular expressions. I've been trying to modify code such as: grepl("^(?!x).*$", df1$fruit, perl = TRUE) to try and make it work within the filter command, but am not quite getting it.

Expected output:

I'd like to do this inside dplyr if possible.

0 投票
1 回答
1896 浏览

r - R搜索多种模式grepl

我有以下代码。我想找到具有字母数字值的单元格,它还应该忽略 na 或 NA 的单元格。

我怎样才能修改我的代码呢?所需的 R 命令应返回以下新列的结果

真,真,假,假,真,假,假

我尝试了命令 3 和 4,但它们失败了:(

============================update1====================== =========

我如上所述更新了我的代码,因为我也想识别 na、nan、null 及其变体。但是“空部分不起作用。我应该做些什么改变?

0 投票
2 回答
29515 浏览

r - 使用 grepl 搜索文本中的多个子字符串之一

我在 R 中使用 grepl() 来搜索我的文本中是否存在以下任一类型。我现在正在这样做:

有没有更好的方法来编写这段代码?我可以将所有流派放在一个数组中,然后以某种方式使用grepl()吗?

0 投票
2 回答
386 浏览

regex - 正则表达式包括下划线

我是使用正则表达式的新手。我有以下内容:

希望返回:

并且返回:

我正在使用以下正则表达式

但它会返回所有文件。任何帮助将不胜感激。

0 投票
4 回答
8080 浏览

regex - 使用正则表达式将 URL 提取到新的数据框列中

我想使用正则表达式从数据框中的文本中提取所有 URL 到一个新列中。我有一些用于提取关键字的旧代码,因此我希望将代码改编为正则表达式。我想将正则表达式保存为字符串变量并在此处应用:

似乎fixed=FALSE应该说明grepl它是一个正则表达式,但 R 不喜欢我尝试将正则表达式保存为:

我的数据组织在这样的数据框中:

并希望看起来像:

0 投票
5 回答
253 浏览

regex - 非结构化数据集中的精确模式匹配(文本或 CSV 文件)

我需要找到最好的方法来匹配来自 CSV 或文本文件的符号、字母和数字的精确模式组合与非常非结构化的数据集。

我需要准确地提取模式“<code>BR1*********”(BR1+ 正好 9 位),它位于行 :61: 的中间​​以及模式“<code>?54** *”(?54+ 正好 3 位数字),它始终位于行 :61: 的末尾。

两种模式都是重复的,但数字组合不同。

我已经尝试过grepgrepl但到目前为止没有成功。结果,我总是收到整行,其中该模式近似匹配,但符号和数字不完全匹配。

以下是数据集的一小部分:

0 投票
2 回答
287 浏览

regex - grepl 重复上界和加号字符

我正在处理一个df看起来像这样的数据框 ( ),在某些情况下可以包含超过 10000 行。

我需要在列的字符串中grep包含至少两次的所有行才能获得数据框。_+Codingtest

我在尝试 :

不能排除最后一行。知道为什么吗?非常感谢

这是结果:

0 投票
1 回答
2000 浏览

r - grepl 用于 dplyr sql 表?

有没有一种解决方法可以使用类似的东西

对于 dplyr SQL 表?在 SQL 中,它可能是一个LIKE. 当然,我可以将 SQL 表转换为 R 数据表,但它非常大。(http://cran.r-project.org/web/packages/dplyr/vignettes/databases.html)此刻我得到

谢谢克里斯托夫