问题标签 [stringi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
794 浏览

regex - 如何使用 OpenNLP 和 stringi 检测句子边界?

我想分解string成句子:

我想展示两种不同的方式。一个来自包openNLP

第二个来自 package stringi

在第二种方式之后,我需要准备句子以删除多余的空格或将新字符串再次分解为句子。我可以调整 stringi 函数来提高结果的质量吗?

当它涉及大数据时,openNLP(非常)慢stringi
有没有办法结合stringi(->快速)和openNLP(->质量)?

0 投票
5 回答
11447 浏览

r - 如何从本地文件安装 stringi(绝对无法访问 Internet)

我正在使用 RStudio 在远程服务器上工作。此服务器无法访问 Internet。我想安装包“stringi”。我看过这篇tackoverflow 文章,但是每当我使用命令时

它只是尝试访问互联网,但它无法做到。到目前为止,我一直在使用Tools -> Install Packages -> Install from Packaged Archive File。但是,由于此错误,我无法再使用此方法。

我怎样才能安装这个包?

0 投票
1 回答
442 浏览

r - 如何在 stringi 包中使用反向引用?

在 RI 中可以\\1用来引用捕获组。但是,当使用 stringi 包时,这不能按预期工作。

预期输出:hello-you.

文档中,我找不到有关此问题的任何内容。

0 投票
1 回答
773 浏览

regex - 如何使用正则表达式去除标点符号而不污染像中文这样的 UTF-8 或 UTF-16 编码文本?

如何从 ASCII 和 UTF-8 编码的字符串中去除标点符号,而不会弄乱 R 中的 UTF-8 原始字符,特别是中文。

结果是:

但期望的结果应该是:

我希望删除所有 CJK 符号和标点符号以及询问 ASCII 标点符号。

@akrun, sessionInfo() 如下

0 投票
1 回答
131 浏览

r - R - 如何计算大型文本文件中特定字符串的出现次数

我试图在电子邮件列表中找到约 10.000 个不同位置的出现。我需要的是每个电子邮件中最常提及位置的一个向量,一个第二个最频繁的向量,一个第三个最频繁的向量!

由于我的数据集很大,因此我的性能存在问题。我用 stringi 和并行包尝试了它,但它仍然运行得很慢(20.000 个电子邮件和 10.000 个位置大约需要 15 分钟)。输入数据(电子邮件和城市)如下所示:

这是我使用 stringi 的代码:

有什么想法可以通过例如使用 index 或 equal 来加快速度吗?我真的很期待在这个问题上获得帮助。

非常感谢克莱门斯

0 投票
2 回答
156 浏览

r - 将大型字符转换为 r 中类似日期格式的字符

我有一个df包含 1000 万行的数据框。我想将“生日”列的字符格式从“xxxxxxxx”转换为“xxxx-xx-xx”。例如。从“20051023”到“2005-10-23”。我可以df$birthday <- lapply(df$birthday, as.Date, "%Y%m%d")这样做,但它会浪费大量内存和计算时间来进行数据转换。但是,我只想将其转换为类似日期的字符,而不是日期类型。因此我使用stringi包,因为它是用 C 语言编写的。不幸的是,df$birthday <- stri_join(stri_sub(df$birthday, from=c(1,5,7), to=c(4,6,8)), collapse = "-")不起作用,因为该函数不支持矢量输入。有没有办法解决这个问题?非常感谢。

0 投票
1 回答
684 浏览

r - 找不到对象'C_stri_join' - 在 Rstudio 中使用 knitr

在 Rstudio 中使用 knit 按钮时出现错误object 'C_stri_join' not found

这是一个例子:

错误如下:

这是在最近更新我的 R 包之后发生的:

该错误似乎源于str对 R 代码块中的调用,因为以下内容没有错误:

这与这个问题相似,但那里没有给出什么细节。

0 投票
1 回答
292 浏览

r - 根据 r 中的最后一个单词对字符串进行排序

例如,我在一列中有 n 个字符串,如下所示。我想根据最后一个单词对字符串进行排序。

期望的输出

我希望根据最后一个单词对特定列中的所有字符串进行排序。这里应该是基于 Linie 1, Linie 2 等等。

有人可以让我知道我该怎么做。

0 投票
1 回答
2682 浏览

r - 如何使用 R 包 stringr 或 stringi 将字符串与数据表中的 NA 连接起来

我有一个数据表,其中包含许多街道地址字段列,例如NUM, STREET_PRE, STREETNAME, STREETTYPE, APT_NO, CITY, STATE, ZIP。许多行在所有列中都没有值,例如STREET_PREor APT_NO

我需要从这些列中获取地址字符串。使用 paste0 会将字符串“NA”放入结果中。我搜索并发现一些关于这个问题的讨论只是在之后替换“NA”,或者在连接中使用 if else。如果有一些“NA”的有效输入,之后替换 NA 可能会带来问题。

stringr看起来很有希望,str_c因为它会跳过 NA。但是我总是得到 NA 作为这个输入的结果:

这个输入有一些非标准值,但我仍然希望得到一个地址字符串。我会让地理编码器确定地址是否有效。

这似乎是一项简单的任务,但很难得到我想要的东西。paste, str_c,stri_c似乎都试图匹配两个向量并将它们连接起来,但我只想连接一系列字符串。它们都适用于正常情况,但是带有 NA 的输入在不同的功能中导致了不同的问题。

编辑下面的答案和评论适用于单行输入,但在数据表中产生了意外结果。当我只希望它们在当前行上工作时,它们可能在整个列向量上工作。

我尝试了这些行但没有成功:

可能是折叠参数将我想要的列组合成单个值。也许我必须回到我原来的使用方法paste0,但首先用 '' 替换 NAs。

0 投票
2 回答
237 浏览

regex - 在R中的变量中提取双引号之间的单词

我想从以下输入中提取名称,其格式如括号中所示

我想提取引号之间的名称,如下所示。有什么建议么?