“stringi”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

648 浏览

r - 在R中字符串的每个字符之间插入竖线

我如何能够在 R 中字符串的每个字符之间插入竖线？例如，假设我有一个字符串“ABC123”。我怎样才能获得“A|B|C|1|2|3”的输出？如果有人可以将这个想法向量化为字符串向量，那就太好了。

r stringr stringi

2017-07-20T21:27:12.507

0 投票

3 回答

61 浏览

我有一个字符串向量，我需要检查它们是否符合特定标准。例如，如果某个字符串 say"34|40|65"完全由这些模式组成：c("34", "35", "37", "48", "65")，那么我想返回 1，如果它们的字符串不包含任何这些模式，那么我想返回 -1。如果字符串包含一些模式，但不是完全由这些模式组成，那么我想返回 0。我已经成功实现了 1 和 -1，但是在产生 0 的逻辑上遇到了问题。就目前而言，我的逻辑为那些应该产生 0 的字符串产生 1。这是我的代码，用于确定字符串是否包含这些模式之一。这会给我1s。

data$comp_cd是字符串的向量

谢谢！

r string stringr stringi

2017-07-24T13:51:58.123

0 投票

0 回答

152 浏览

r - stri_trans_general 在某些西里尔字母处失败

我正在使用 stri_trans_general 将马其顿西里尔字母转换为拉丁字母。

但是，我注意到某些特定于马其顿语的字母，并且与其他西里尔字母不同......例如：Ј、Њ、Ѕ、Ж 等等......不要被翻译。

例如：

对于第二个例子，我会得到一个奇怪的第一个字母的 html 代码。

编辑：

图片特别显示了它的外观。

我遇到的问题是，如果我尝试对包含这些编码问题的地址进行地理编码，我将无法获得正确的坐标。

有什么想法可以解决这个问题吗？

r stringi

2017-08-03T15:32:32.583

0 投票

5 回答

181 浏览

r - R：正则表达式疯狂（stringi）

我有一个看起来像这样的字符串向量：

迭代c("H", "M", "L")，我想提取G30（for“ H”），G3（for“ M”）和G0（for“ L”）。

我的各种尝试让我感到困惑 -regex101.com调试器，例如表明(\w*)$M$工作正常，但将其转移到 R 失败......

r regex stringi

2017-08-15T11:38:04.103

0 投票

1 回答

3216 浏览

r - 正则表达式提取双引号和引号中的字符串R

我有一个带有“文本”列的数据框。此列的每一行都填充了来自媒体文章的文本。

我正在尝试提取这样的字符串：“term”（包括术语周围的双引号）。我尝试了以下正则表达式来捕获单词夹在两个双引号之间的实例：

这似乎捕捉到了我正在寻找的一些实例，但在其他情况下——我知道符合标准——却没有。它还捕获似乎只是较长文本的引用（而不是引用文本的其他实例）。以下是使用上述方法的结果：

我只想将“术语”作为输出（包括双引号）。我正在尝试查找该术语在引号中单独使用的实例。

上面的代码只能返回 [1] 中的术语。

r regex stringi

2017-08-17T06:30:26.520

0 投票

0 回答

655 浏览

r - stri_split_boundaries() 中的错误：参数“str”应该是字符向量

我一直在研究 Maëlle Salmon推荐的改进 R 包的工具，但无法使 pkgdown::build_site() 工作：

查看文档stri_split_boundaries我的猜测是，某些文件或字符串在stringi预期的情况下是空的。因此我尝试过：

创建一个 NEW.md 文件（以前没有）
如此处所述，记录包（而不是包中的函数）
删除我用于实验的空脚本

这些都没有效果。这是我的第一个 R 包，我还没有弄清楚如何正确调试这样的问题。我已经查看了源代码，build_home()但很难知道从哪里开始。现在，我几乎是在随意尝试。感谢任何帮助 - 即使它是关于如何调试此类问题的更通用的建议。

r package markdown r-markdown stringi

2017-08-24T21:11:25.897

0 投票

0 回答

295 浏览

r - 基于 R 字符串的企业名称匹配

TL;DR 我想匹配两个不相等的列，其中值包含企业名称，并且我尝试使用 Jaro-Winkler 匹配来接近stringdist 的 amatch，但还不够接近。我想知道 stringi 在这里是否有用 - 我只是不太明白如何使用它，请原谅我是个菜鸟。我不会问其他问题，但我认为我自己无法及时解决。

就上下文而言，一列中有 2079 个企业名称，第二列中有 1878 个企业名称。其中许多包含作为后缀的业务结构 - 即 LLC，Inc.，INC.，Co. 等 - 所以我在进入 R 之前用 excel 将它们修剪掉。名称是手动输入到两列中的，因此有人工输入误差变化。

我使用了这个公式：

我能够得到一些结果，但是由于公司会共享第一个单词或单词/字母的第一个组合-即“A＆A”与“A＆B”，因此许多匹配项被重复。我知道这是基于 JW 公式的工作原理，但我不太清楚如何对其进行足够的修改。

我需要将 b 列中的值与 a 列匹配。可能有重复和列 a。我没有任何特定的相似性规则；我想要与每个值最接近的匹配，以及最少数量的错误重复。

对于初学者，是否有更简单的方法可以在stringi中完成此操作？

请告知，因为我不知道如何最好地解决这个问题。如果需要更多详细信息，我很乐意提供帮助。先感谢您。

r string-matching stringi stringdist jaro-winkler

2017-08-28T13:15:03.593

0 投票

0 回答

234 浏览

r - 尝试使用自定义函数来缩写 ggplot2 中的轴标签时出错

我正在使用 ggplot2 根据从Limesurvey导出的调查响应创建数据条形图；因此数据具有特定的格式，并且数据列包含一些 NA（因为缺少响应或因为像下面的示例中那样标记了级别）：

将其绘制为条形图时，我想缩写 x 轴标签，因为响应选项很长。我不能使用通用abbreviate函数，因为它省略了元音；我还想...在缩写标签的末尾添加三个点。所以我正在尝试使用自定义函数。

以下是我最接近的解决方案，基于这个较早的帖子，但它会引发错误，见下文：

我收到以下错误，大概是因为数据中的“NA”（其他）响应。

有没有办法解决这个问题而无需更改基础数据？任何提示将不胜感激！

r ggplot2 stringi

2017-09-06T17:37:57.477

0 投票

0 回答

116 浏览

r - 如何在 R 字符串替换中将反斜杠作为替换

我需要用“\”来“>”。示例：“a>b”应更改为“a\b”

我试过gsub

我试过 StringR str_replace

我试过 Stringi str_replace_all_fixed

我如何逃脱 \ 代替。我猜当你给\时，捕获的组期望\1、\2等。如何避免这种情况

r stringr stringi

2017-09-15T11:58:18.247

0 投票

1 回答

81 浏览

r - 如果函数来源于 R，Stringi/stringr 模式的行为会有所不同

我现在使用该stringi软件包有一段时间了，一切正常。

我最近想将一些正则表达式放在一个函数中，并将该函数存储在一个单独的文件中。如果函数是从脚本加载的，那么代码就可以正常工作，但是当它被获取时，我没有得到预期的结果。

这是重现该问题的代码：

我想删除所有不是字母、重音字母和标点符号?、!、,和..

如果函数直接加载到脚本中，代码就可以正常工作。如果它是采购的，那么它会给出不同的结果。

我也试过使用stringr，我也有同样的问题。我的文件以 UTF-8 编码保存。

我不明白为什么会这样，非常感谢任何帮助。

谢谢你。

r stringr stringi

2017-09-19T14:55:39.017

问题标签 [stringi]

r - 在R中字符串的每个字符之间插入竖线

r - 如何检查字符串是否完全由某些字符串模式组成

r - stri_trans_general 在某些西里尔字母处失败

r - R：正则表达式疯狂（stringi）

r - 正则表达式提取双引号和引号中的字符串R

r - stri_split_boundaries() 中的错误：参数“str”应该是字符向量

r - 基于 R 字符串的企业名称匹配

r - 尝试使用自定义函数来缩写 ggplot2 中的轴标签时出错

r - 如何在 R 字符串替换中将反斜杠作为替换

r - 如果函数来源于 R，Stringi/stringr 模式的行为会有所不同

问题标签 [stringi]

Reference