问题标签 [grepl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
91 浏览

r - R中字母的术语文档矩阵

我想构建一个 n-gram '字母文档矩阵',它基本上使用最多 n 个字母的字母序列,而不是典型的单词。这是我想要实现的简化示例:

这种操作有名称吗?是否有任何预建函数可以处理这个问题?

最后,我用grepl尝试了outer,但无济于事:

似乎外部将整个第一个参数传递给 grepl,而不是一次一个条目,导致 grepl 只搜索第一个术语,在这种情况下是“a”。

0 投票
1 回答
445 浏览

regex - R的grepl中的错误?

这是我的脚本:

我的输出:

由于我提供了'fixed=TRUE',我很困惑我错过了什么。这是 grepl 人的错误吗?

0 投票
2 回答
316 浏览

r - 使用 grep 查找包含点的名称时遇到困难

我很难用 grep 找到其中包含点的名称。它找不到它们。我对非点名没有任何问题。我的意思是诸如“JD Drew”之类的名称,我尝试了以下代码:

提前致谢

0 投票
2 回答
1784 浏览

regex - 使用多个匹配模式标记/分类字符串列

我有一个数据框,其中有一列字符串需要根据另一个数据框进行分类,该数据框在一列中具有类别标签,而在另一列中具有匹配的术语/模式。

有 50 多个类别,每个字符串可以匹配多个类别,而其他类别则没有匹配项。如何使用类别标签有效地标记这些字符串?

下面是一个简单的示例数据集和我希望得到的输出。如果有什么不同的话,真实数据集中的字符串比这些样本字符串长得多,而且有几十万个。

这是我希望得到的输出:

我相信 grepl 和 for 循环或 apply 版本的某种组合是必要的,但我在下面尝试的示例确实暴露了我对 R 的了解程度。例如使用 sapply 给出了我期望的结果,sapply(category_df$items, grepl, recipes_df$recipes)但我不确定我如何将这些结果转换为我需要的简单列。

如果我使用此处找到的 categorize 函数,它只会将一个类别与每个字符串匹配:

同样,此处找到的函数与我正在寻找的函数最接近,但我不明白为什么类别编号会以它们的方式映射。我希望蔬菜类别是 1 而不是 2,乳制品是 5 而不是 3。

0 投票
1 回答
119 浏览

r - 在 R 中使用 grepl 匹配共同作者列表中的家庭和名字

我正在尝试使用 grepl() 从 R 中的 bibTEX 文件中匹配唯一作者,但我无法让它同时匹配“给定”和“家族”名称(而不仅仅是一个或另一个。单独的姓氏会很好,但我的书目有多个同姓的作者。

我的输入文件(例如)是 dat.bib:

现在我在 R 中尝试过的

给出:

我不能单独使用“作者”结果,因为我正在尝试共同作者分析,如果他们共同撰写了多篇论文,这将返回同一作者作为单独的结果。

我试过匹配独特的作者:

返回:

返回:

但我想要的是独特的作者回归

我尝试将“家庭”和“给定论点”绑定在一起

这给出了警告信息:

有没有办法将参数参数绑定在一起,或者在 bibtex 文件中绑定“family”和“given”?

我仍然是新手,非常感谢任何帮助!

0 投票
1 回答
160 浏览

r - 使用 grepl 处理多个文本

让我们假设我有以下变量:

我想要一个具有以下结果的新变量:

我要做的是查找例如单词oneoron是否在文本中,然后将新值分配给one新变量d。此外,如果层次结构中有多个值,a则应来自最后一个值。

我能做的是以下几点:

同样可以在一个简单的循环中完成。但是还有其他更优雅的方式吗?

0 投票
1 回答
55 浏览

r - 使用 grepl 命名变量

我有以下数据框

现在,我想做一些文本挖掘,根据描述中的单词为行指定一个帖子。所以一个描述包含:“bankafschrift”我想声明为“银行”。我知道如何获得这样的真/假值:

这给了我:

但我希望帖子说“杂货”,以防 grepl 声明为真。关于如何做到这一点的任何建议?

最重要的是:

如果我想要更多项目来确定帖子,我将如何使用列表?

如果这样做:

它给了我以下错误:

0 投票
0 回答
39 浏览

r - 在 R 中获取数据 JSON 格式文件

我在 R 中导入了一个 JSON 文件,格式如下:

我有另一个具有文本变量的 data.frame:

所以我想要的是通过 JSON 文件检查这个城市是否存在并将国家分配给一个新变量,如下所示:

我正在考虑使用:unlist()JSON文件->用于grepl查找值中是否存在城市。还有什么想法吗?

0 投票
1 回答
335 浏览

regex - grepl() 和 lapply 填充缺失值

我以以下数据为例:

我希望 R 能够查看“完整”(名称)列中没有“名称”、“国家”和“类型”值的其他项目,并查看它们是否与其他项目匹配。例如,如果 full 的第 4 行带有“bombay US mango”,它将能够识别该国家/地区应为 US,bombay 应在 type 下,mango 应在 name 下。

这就是我到目前为止所拥有的,它只是(逻辑上)识别项目匹配的位置:

我有点停滞不前..我已经阅读了许多正则表达式帖子和 r 帮助指南,grepl但无法找到一个很好的解决方案。我所拥有的并没有完全识别逻辑“匹配”向量,因此我无法对不同元素进行子集化并使用 if 语句连接。理想情况下,我希望能够以 data.table 形式替换这些元素,因为我的 fruit.region 实际上会在数据表中。有人对最佳方法有任何建议吗?

0 投票
2 回答
51 浏览

regex - 为 reg-exp 创建一个预定义的集合。(gsub,grepl,...)

嗨,我正在尝试创建一个特殊的字符串,就像digit在 grepl ( R) 中一样。

string <- c("a>-787", "ahigji<=!5")

说,

现在我正在尝试查看字符串中是否有带有special characters.

我也试过 grepl("[special_characters]", string) , grepl("[[:special_characters:]]", string)

但它给了我一个无关紧要的答案!关于测试不同的字符串。

我只想使用类似的东西[[:digit]]-简而言之,我需要创建一个预定义的集合,并且需要在grepl or gsub