问题标签 [grepl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中字母的术语文档矩阵
我想构建一个 n-gram '字母文档矩阵',它基本上使用最多 n 个字母的字母序列,而不是典型的单词。这是我想要实现的简化示例:
这种操作有名称吗?是否有任何预建函数可以处理这个问题?
最后,我用grepl尝试了outer,但无济于事:
似乎外部将整个第一个参数传递给 grepl,而不是一次一个条目,导致 grepl 只搜索第一个术语,在这种情况下是“a”。
regex - R的grepl中的错误?
这是我的脚本:
我的输出:
由于我提供了'fixed=TRUE',我很困惑我错过了什么。这是 grepl 人的错误吗?
r - 使用 grep 查找包含点的名称时遇到困难
我很难用 grep 找到其中包含点的名称。它找不到它们。我对非点名没有任何问题。我的意思是诸如“JD Drew”之类的名称,我尝试了以下代码:
提前致谢
regex - 使用多个匹配模式标记/分类字符串列
我有一个数据框,其中有一列字符串需要根据另一个数据框进行分类,该数据框在一列中具有类别标签,而在另一列中具有匹配的术语/模式。
有 50 多个类别,每个字符串可以匹配多个类别,而其他类别则没有匹配项。如何使用类别标签有效地标记这些字符串?
下面是一个简单的示例数据集和我希望得到的输出。如果有什么不同的话,真实数据集中的字符串比这些样本字符串长得多,而且有几十万个。
这是我希望得到的输出:
我相信 grepl 和 for 循环或 apply 版本的某种组合是必要的,但我在下面尝试的示例确实暴露了我对 R 的了解程度。例如使用 sapply 给出了我期望的结果,sapply(category_df$items, grepl, recipes_df$recipes)
但我不确定我如何将这些结果转换为我需要的简单列。
如果我使用此处找到的 categorize 函数,它只会将一个类别与每个字符串匹配:
同样,此处找到的函数与我正在寻找的函数最接近,但我不明白为什么类别编号会以它们的方式映射。我希望蔬菜类别是 1 而不是 2,乳制品是 5 而不是 3。
r - 在 R 中使用 grepl 匹配共同作者列表中的家庭和名字
我正在尝试使用 grepl() 从 R 中的 bibTEX 文件中匹配唯一作者,但我无法让它同时匹配“给定”和“家族”名称(而不仅仅是一个或另一个。单独的姓氏会很好,但我的书目有多个同姓的作者。
我的输入文件(例如)是 dat.bib:
现在我在 R 中尝试过的
给出:
我不能单独使用“作者”结果,因为我正在尝试共同作者分析,如果他们共同撰写了多篇论文,这将返回同一作者作为单独的结果。
我试过匹配独特的作者:
返回:
和
返回:
但我想要的是独特的作者回归
我尝试将“家庭”和“给定论点”绑定在一起
这给出了警告信息:
有没有办法将参数参数绑定在一起,或者在 bibtex 文件中绑定“family”和“given”?
我仍然是新手,非常感谢任何帮助!
r - 使用 grepl 处理多个文本
让我们假设我有以下变量:
我想要一个具有以下结果的新变量:
我要做的是查找例如单词one
oron
是否在文本中,然后将新值分配给one
新变量d
。此外,如果层次结构中有多个值,a
则应来自最后一个值。
我能做的是以下几点:
同样可以在一个简单的循环中完成。但是还有其他更优雅的方式吗?
r - 使用 grepl 命名变量
我有以下数据框
现在,我想做一些文本挖掘,根据描述中的单词为行指定一个帖子。所以一个描述包含:“bankafschrift”我想声明为“银行”。我知道如何获得这样的真/假值:
这给了我:
但我希望帖子说“杂货”,以防 grepl 声明为真。关于如何做到这一点的任何建议?
最重要的是:
如果我想要更多项目来确定帖子,我将如何使用列表?
如果这样做:
它给了我以下错误:
r - 在 R 中获取数据 JSON 格式文件
我在 R 中导入了一个 JSON 文件,格式如下:
我有另一个具有文本变量的 data.frame:
所以我想要的是通过 JSON 文件检查这个城市是否存在并将国家分配给一个新变量,如下所示:
我正在考虑使用:unlist()
JSON文件->用于grepl
查找值中是否存在城市。还有什么想法吗?
regex - grepl() 和 lapply 填充缺失值
我以以下数据为例:
我希望 R 能够查看“完整”(名称)列中没有“名称”、“国家”和“类型”值的其他项目,并查看它们是否与其他项目匹配。例如,如果 full 的第 4 行带有“bombay US mango”,它将能够识别该国家/地区应为 US,bombay 应在 type 下,mango 应在 name 下。
这就是我到目前为止所拥有的,它只是(逻辑上)识别项目匹配的位置:
我有点停滞不前..我已经阅读了许多正则表达式帖子和 r 帮助指南,grepl
但无法找到一个很好的解决方案。我所拥有的并没有完全识别逻辑“匹配”向量,因此我无法对不同元素进行子集化并使用 if 语句连接。理想情况下,我希望能够以 data.table 形式替换这些元素,因为我的 fruit.region 实际上会在数据表中。有人对最佳方法有任何建议吗?
regex - 为 reg-exp 创建一个预定义的集合。(gsub,grepl,...)
嗨,我正在尝试创建一个特殊的字符串,就像digit
在 grepl ( R
) 中一样。
string <- c("a>-787", "ahigji<=!5")
说,
现在我正在尝试查看字符串中是否有带有special characters
.
我也试过 grepl("[special_characters]", string) , grepl("[[:special_characters:]]", string)
但它给了我一个无关紧要的答案!关于测试不同的字符串。
我只想使用类似的东西[[:digit]]
-简而言之,我需要创建一个预定义的集合,并且需要在grepl or gsub