问题标签 [stringi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
648 浏览

r - 在R中字符串的每个字符之间插入竖线

我如何能够在 R 中字符串的每个字符之间插入竖线?例如,假设我有一个字符串“ABC123”。我怎样才能获得“A|B|C|1|2|3”的输出?如果有人可以将这个想法向量化为字符串向量,那就太好了。

0 投票
3 回答
61 浏览

r - 如何检查字符串是否完全由某些字符串模式组成

我有一个字符串向量,我需要检查它们是否符合特定标准。例如,如果某个字符串 say"34|40|65"完全由这些模式组成:c("34", "35", "37", "48", "65"),那么我想返回 1,如果它们的字符串不包含任何这些模式,那么我想返回 -1。如果字符串包含一些模式,但不是完全由这些模式组成,那么我想返回 0。我已经成功实现了 1 和 -1,但是在产生 0 的逻辑上遇到了问题。就目前而言,我的逻辑为那些应该产生 0 的字符串产生 1。这是我的代码,用于确定字符串是否包含这些模式之一。这会给我1s。

data$comp_cd是字符串的向量

谢谢!

0 投票
0 回答
152 浏览

r - stri_trans_general 在某些西里尔字母处失败

我正在使用 stri_trans_general 将马其顿西里尔字母转换为拉丁字母。

但是,我注意到某些特定于马其顿语的字母,并且与其他西里尔字母不同......例如:Ј、Њ、Ѕ、Ж 等等......不要被翻译。

例如:

对于第二个例子,我会得到一个奇怪的第一个字母的 html 代码。

编辑:

在此处输入图像描述

图片特别显示了它的外观。

我遇到的问题是,如果我尝试对包含这些编码问题的地址进行地理编码,我将无法获得正确的坐标。

有什么想法可以解决这个问题吗?

0 投票
5 回答
181 浏览

r - R:正则表达式疯狂(stringi)

我有一个看起来像这样的字符串向量:

迭代c("H", "M", "L"),我想提取G30(for“ H”),G3(for“ M”)和G0(for“ L”)。

我的各种尝试让我感到困惑 -regex101.com调试器,例如表明(\w*)\(M\)工作正常,但将其转移到 R 失败......

0 投票
1 回答
3216 浏览

r - 正则表达式提取双引号和引号中的字符串R

我有一个带有“文本”列的数据框。此列的每一行都填充了来自媒体文章的文本。

我正在尝试提取这样的字符串:“term”(包括术语周围的双引号)。我尝试了以下正则表达式来捕获单词夹在两个双引号之间的实例:

这似乎捕捉到了我正在寻找的一些实例,但在其他情况下——我知道符合标准——却没有。它还捕获似乎只是较长文本的引用(而不是引用文本的其他实例)。以下是使用上述方法的结果:

我只想将“术语”作为输出(包括双引号)。我正在尝试查找该术语在引号中单独使用的实例。

上面的代码只能返回 [1] 中的术语。

0 投票
0 回答
655 浏览

r - stri_split_boundaries() 中的错误:参数“str”应该是字符向量

我一直在研究 Maëlle Salmon推荐的改进 R 包的工具,但无法使 pkgdown::build_site() 工作:

查看文档stri_split_boundaries我的猜测是,某些文件或字符串在stringi预期的情况下是空的。因此我尝试过:

  1. 创建一个 NEW.md 文件(以前没有)
  2. 如此处所述,记录包(而不是包中的函数
  3. 删除我用于实验的空脚本

这些都没有效果。这是我的第一个 R 包,我还没有弄清楚如何正确调试这样的问题。我已经查看了源代码,build_home()但很难知道从哪里开始。现在,我几乎是在随意尝试。感谢任何帮助 - 即使它是关于如何调试此类问题的更通用的建议。

0 投票
0 回答
295 浏览

r - 基于 R 字符串的企业名称匹配

TL;DR 我想匹配两个不相等的列,其中值包含企业名称,并且我尝试使用 Jaro-Winkler 匹配来接近stringdist 的 amatch,但还不够接近。我想知道 stringi 在这里是否有用 - 我只是不太明白如何使用它,请原谅我是个菜鸟。我不会问其他问题,但我认为我自己无法及时解决。

就上下文而言,一列中有 2079 个企业名称,第二列中有 1878 个企业名称。其中许多包含作为后缀的业务结构 - 即 LLC,Inc.,INC.,Co. 等 - 所以我在进入 R 之前用 excel 将它们修剪掉。名称是手动输入到两列中的,因此有人工输入误差变化。

我使用了这个公式:

我能够得到一些结果,但是由于公司会共享第一个单词或单词/字母的第一个组合-即“A&A”与“A&B”,因此许多匹配项被重复。我知道这是基于 JW 公式的工作原理,但我不太清楚如何对其进行足够的修改。

我需要将 b 列中的值与 a 列匹配。可能有重复和列 a。我没有任何特定的相似性规则;我想要与每个值最接近的匹配,以及最少数量的错误重复。

对于初学者,是否有更简单的方法可以在stringi中完成此操作?

请告知,因为我不知道如何最好地解决这个问题。如果需要更多详细信息,我很乐意提供帮助。先感谢您。

0 投票
0 回答
234 浏览

r - 尝试使用自定义函数来缩写 ggplot2 中的轴标签时出错

我正在使用 ggplot2 根据从Limesurvey导出的调查响应创建数据条形图;因此数据具有特定的格式,并且数据列包含一些 NA(因为缺少响应或因为像下面的示例中那样标记了级别):

将其绘制为条形图时,我想缩写 x 轴标签,因为响应选项很长。我不能使用通用abbreviate函数,因为它省略了元音;我还想...在缩写标签的末尾添加三个点。所以我正在尝试使用自定义函数。

以下是我最接近的解决方案,基于这个较早的帖子,但它会引发错误,见下文:

我收到以下错误,大概是因为数据中的“NA”(其他)响应。

有没有办法解决这个问题而无需更改基础数据?任何提示将不胜感激!

0 投票
0 回答
116 浏览

r - 如何在 R 字符串替换中将反斜杠作为替换

我需要用“\”来“>”。示例:“a>b”应更改为“a\b”

我试过gsub

我试过 StringR str_replace

我试过 Stringi str_replace_all_fixed

我如何逃脱 \ 代替。我猜当你给\时,捕获的组期望\1、\2等。如何避免这种情况

0 投票
1 回答
81 浏览

r - 如果函数来源于 R,Stringi/stringr 模式的行为会有所不同

我现在使用该stringi软件包有一段时间了,一切正常。

我最近想将一些正则表达式放在一个函数中,并将该函数存储在一个单独的文件中。如果函数是从脚本加载的,那么代码就可以正常工作,但是当它被获取时,我没有得到预期的结果。

这是重现该问题的代码:

我想删除所有不是字母、重音字母和标点符号?!,..

如果函数直接加载到脚本中,代码就可以正常工作。如果它是采购的,那么它会给出不同的结果。

我也试过使用stringr,我也有同样的问题。我的文件以 UTF-8 编码保存。

我不明白为什么会这样,非常感谢任何帮助。

谢谢你。