问题标签 [stringi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在R中字符串的每个字符之间插入竖线
我如何能够在 R 中字符串的每个字符之间插入竖线?例如,假设我有一个字符串“ABC123”。我怎样才能获得“A|B|C|1|2|3”的输出?如果有人可以将这个想法向量化为字符串向量,那就太好了。
r - 如何检查字符串是否完全由某些字符串模式组成
我有一个字符串向量,我需要检查它们是否符合特定标准。例如,如果某个字符串 say"34|40|65"
完全由这些模式组成:c("34", "35", "37", "48", "65")
,那么我想返回 1,如果它们的字符串不包含任何这些模式,那么我想返回 -1。如果字符串包含一些模式,但不是完全由这些模式组成,那么我想返回 0。我已经成功实现了 1 和 -1,但是在产生 0 的逻辑上遇到了问题。就目前而言,我的逻辑为那些应该产生 0 的字符串产生 1。这是我的代码,用于确定字符串是否包含这些模式之一。这会给我1s。
data$comp_cd
是字符串的向量
谢谢!
r - R:正则表达式疯狂(stringi)
我有一个看起来像这样的字符串向量:
迭代c("H", "M", "L")
,我想提取G30
(for“ H
”),G3
(for“ M
”)和G0
(for“ L
”)。
我的各种尝试让我感到困惑 -regex101.com
调试器,例如表明(\w*)\(M\)
工作正常,但将其转移到 R 失败......
r - 正则表达式提取双引号和引号中的字符串R
我有一个带有“文本”列的数据框。此列的每一行都填充了来自媒体文章的文本。
我正在尝试提取这样的字符串:“term”(包括术语周围的双引号)。我尝试了以下正则表达式来捕获单词夹在两个双引号之间的实例:
这似乎捕捉到了我正在寻找的一些实例,但在其他情况下——我知道符合标准——却没有。它还捕获似乎只是较长文本的引用(而不是引用文本的其他实例)。以下是使用上述方法的结果:
我只想将“术语”作为输出(包括双引号)。我正在尝试查找该术语在引号中单独使用的实例。
上面的代码只能返回 [1] 中的术语。
r - 基于 R 字符串的企业名称匹配
TL;DR 我想匹配两个不相等的列,其中值包含企业名称,并且我尝试使用 Jaro-Winkler 匹配来接近stringdist 的 amatch,但还不够接近。我想知道 stringi 在这里是否有用 - 我只是不太明白如何使用它,请原谅我是个菜鸟。我不会问其他问题,但我认为我自己无法及时解决。
就上下文而言,一列中有 2079 个企业名称,第二列中有 1878 个企业名称。其中许多包含作为后缀的业务结构 - 即 LLC,Inc.,INC.,Co. 等 - 所以我在进入 R 之前用 excel 将它们修剪掉。名称是手动输入到两列中的,因此有人工输入误差变化。
我使用了这个公式:
我能够得到一些结果,但是由于公司会共享第一个单词或单词/字母的第一个组合-即“A&A”与“A&B”,因此许多匹配项被重复。我知道这是基于 JW 公式的工作原理,但我不太清楚如何对其进行足够的修改。
我需要将 b 列中的值与 a 列匹配。可能有重复和列 a。我没有任何特定的相似性规则;我想要与每个值最接近的匹配,以及最少数量的错误重复。
对于初学者,是否有更简单的方法可以在stringi中完成此操作?
请告知,因为我不知道如何最好地解决这个问题。如果需要更多详细信息,我很乐意提供帮助。先感谢您。
r - 尝试使用自定义函数来缩写 ggplot2 中的轴标签时出错
我正在使用 ggplot2 根据从Limesurvey导出的调查响应创建数据条形图;因此数据具有特定的格式,并且数据列包含一些 NA(因为缺少响应或因为像下面的示例中那样标记了级别):
将其绘制为条形图时,我想缩写 x 轴标签,因为响应选项很长。我不能使用通用abbreviate
函数,因为它省略了元音;我还想...
在缩写标签的末尾添加三个点。所以我正在尝试使用自定义函数。
以下是我最接近的解决方案,基于这个较早的帖子,但它会引发错误,见下文:
我收到以下错误,大概是因为数据中的“NA”(其他)响应。
有没有办法解决这个问题而无需更改基础数据?任何提示将不胜感激!
r - 如何在 R 字符串替换中将反斜杠作为替换
我需要用“\”来“>”。示例:“a>b”应更改为“a\b”
我试过gsub
我试过 StringR str_replace
我试过 Stringi str_replace_all_fixed
我如何逃脱 \ 代替。我猜当你给\时,捕获的组期望\1、\2等。如何避免这种情况
r - 如果函数来源于 R,Stringi/stringr 模式的行为会有所不同
我现在使用该stringi
软件包有一段时间了,一切正常。
我最近想将一些正则表达式放在一个函数中,并将该函数存储在一个单独的文件中。如果函数是从脚本加载的,那么代码就可以正常工作,但是当它被获取时,我没有得到预期的结果。
这是重现该问题的代码:
我想删除所有不是字母、重音字母和标点符号?
、!
、,
和.
.
如果函数直接加载到脚本中,代码就可以正常工作。如果它是采购的,那么它会给出不同的结果。
我也试过使用stringr
,我也有同样的问题。我的文件以 UTF-8 编码保存。
我不明白为什么会这样,非常感谢任何帮助。
谢谢你。