问题标签 [stringi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
103 浏览

r - 比较两个大字符串向量需要很长时间(删除停用词)

我正在尝试为机器学习准备数据集。在此过程中,我想删除(停止)很少出现的单词(通常与错误的 OCR 读数有关)。目前,我有一个包含大约 1 个要删除的 mio 单词的单词列表。

但是,使用此设置处理我的数据集需要很长时间。

似乎'a %in% b' 不是(远离)O(N)。在整个数据集上运行它是不可行的,因为该过程不会在几个小时内完成。

有没有更有效的方法来比较 R 中的两个向量?

我怀疑它的查找速度应该非常快。我在 C# 中使用 Dictionary 进行了测试,该测试在几分钟内完成。

0 投票
2 回答
1878 浏览

r - 在 str_replace / stri_replace 中使用捕获的组 - stringi vs stringr

大多数stringr函数只是相应stringi函数的包装。str_replace_all就是其中之一。然而我的代码不适stri_replace_all用于相应的stringi函数。

我正在编写一个快速的正则表达式来将驼峰大小写(的一个子集)转换为间隔单词。

我很困惑为什么会这样:

这不会:

0 投票
2 回答
207 浏览

r - stringr::str_sub 输出意外

考虑以下data.frame:

我在sufix这个 data.frame 的变量中有一个字符串列表。现在我有一个词word <- "amável",我想得到这个词的后缀,它的长度与df$sufix.

我正在使用以下代码:

但这会输出:

我期待结果向量的最后一个元素是“ável”,因为:


这是一个更简单的可重现示例:

0 投票
0 回答
87 浏览

r - 使用 stringi 的 perl 大小写约定

我可以使用perlin 参数gsub来更改各个子表达式的大小写。例如,如果我想找到一个小写字母i后跟撇号或字符串结尾(此处为冗余),我可以这样做:

注意II'm是大写但it不是。

鉴于 base 和stringi使用不同的正则表达式引擎,我如何使用stringi做同样的事情(是否可能) 。

0 投票
1 回答
53 浏览

json - 从 R 中不常见的 JSON 结构中提取所有信息

在上一篇文章(如何读取一个文件中包含的多个 JSON 结构?)中,我询问了一个不常见的数据结构(或者至少对于 R 来说不常见)

我有一个具有这种结构的 txt 文件:

我的真实数据的第一行的简化是这样的

这种结构来自公共数据。

我用过这个

这会创建两个数据框

我试图获得这样的东西

任何想法都会有所帮助。提前谢谢了。

0 投票
1 回答
162 浏览

r - 在特定字符之前提取 2 个术语

我想提取 Twitter @handle 前面的两个词

执行以下操作仅提取最后一个@handle 之前的所有文本,我需要所有 @handle

0 投票
2 回答
10497 浏览

r - How to use paste with for-loops?

I am trying to use the function stri_join, from the library stringi in a loop, but I am having difficulties. I would like to obtain "A_1.png", "A_2.png", "A_3.png", "A_4.png", "A_5.png", and so on until "A_200.png".

Here is my attempt:

I obtain "A_1.png" 200 times. If you could point what I am missing.

0 投票
1 回答
510 浏览

r - stringi 软件包不会安装在 CentOS 中

我正在尝试安装stringiR,但安装永远不会完成。下载和一些编译后,我收到以下消息:

我搜索了互联网,但我无法理解此错误消息的含义。如果有帮助,这是我的sessionInfo()

0 投票
1 回答
83 浏览

r - 使用 stringi 包在 R 中提取文本

我有下面的文字,需要在特定单词之前和之后提取特定单词

例子:

下面的实际输出

所需输出:

基本上需要在我提到的特定词之前和之后提取文本

0 投票
0 回答
36 浏览

r - 使用 stringi 和 data.table 的上中间名

我有一个如下所示的 data.table:

我想操作 Name 列,以便将名称的第一个字符和中间名也放在上面:

我的方法如下:

  • 使用“”作为分隔符拆分名称字符串
  • 由 split 产生的列表中每个元素的上位第一个字符
  • 使用 paste with collapse 将操作的列表元素粘贴在一起。

我尝试了这两种方法do.calllapply使用用户定义的函数toUpperFirst

我不太明白出了什么问题。显然,拆分采用整个列,而不是按向量方式应用它。知道如何解决这个问题吗?