问题标签 [stringi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 比较两个大字符串向量需要很长时间(删除停用词)
我正在尝试为机器学习准备数据集。在此过程中,我想删除(停止)很少出现的单词(通常与错误的 OCR 读数有关)。目前,我有一个包含大约 1 个要删除的 mio 单词的单词列表。
但是,使用此设置处理我的数据集需要很长时间。
似乎'a %in% b' 不是(远离)O(N)。在整个数据集上运行它是不可行的,因为该过程不会在几个小时内完成。
有没有更有效的方法来比较 R 中的两个向量?
我怀疑它的查找速度应该非常快。我在 C# 中使用 Dictionary 进行了测试,该测试在几分钟内完成。
r - 在 str_replace / stri_replace 中使用捕获的组 - stringi vs stringr
大多数stringr
函数只是相应stringi
函数的包装。str_replace_all
就是其中之一。然而我的代码不适stri_replace_all
用于相应的stringi
函数。
我正在编写一个快速的正则表达式来将驼峰大小写(的一个子集)转换为间隔单词。
我很困惑为什么会这样:
这不会:
r - stringr::str_sub 输出意外
考虑以下data.frame:
我在sufix
这个 data.frame 的变量中有一个字符串列表。现在我有一个词word <- "amável"
,我想得到这个词的后缀,它的长度与df$sufix
.
我正在使用以下代码:
但这会输出:
我期待结果向量的最后一个元素是“ável”,因为:
这是一个更简单的可重现示例:
r - 使用 stringi 的 perl 大小写约定
我可以使用perl
in 参数gsub
来更改各个子表达式的大小写。例如,如果我想找到一个小写字母i
后跟撇号或字符串结尾(此处为冗余),我可以这样做:
注意I
和I'm
是大写但it
不是。
鉴于 base 和stringi使用不同的正则表达式引擎,我如何使用stringi做同样的事情(是否可能) 。
json - 从 R 中不常见的 JSON 结构中提取所有信息
在上一篇文章(如何读取一个文件中包含的多个 JSON 结构?)中,我询问了一个不常见的数据结构(或者至少对于 R 来说不常见)
我有一个具有这种结构的 txt 文件:
我的真实数据的第一行的简化是这样的
这种结构来自公共数据。
我用过这个
这会创建两个数据框
我试图获得这样的东西
任何想法都会有所帮助。提前谢谢了。
r - 在特定字符之前提取 2 个术语
我想提取 Twitter @handle 前面的两个词
执行以下操作仅提取最后一个@handle 之前的所有文本,我需要所有 @handle
r - How to use paste with for-loops?
I am trying to use the function stri_join, from the library stringi in a loop, but I am having difficulties. I would like to obtain "A_1.png", "A_2.png", "A_3.png", "A_4.png", "A_5.png", and so on until "A_200.png".
Here is my attempt:
I obtain "A_1.png" 200 times. If you could point what I am missing.
r - stringi 软件包不会安装在 CentOS 中
我正在尝试安装stringi
包R
,但安装永远不会完成。下载和一些编译后,我收到以下消息:
我搜索了互联网,但我无法理解此错误消息的含义。如果有帮助,这是我的sessionInfo()
:
r - 使用 stringi 包在 R 中提取文本
我有下面的文字,需要在特定单词之前和之后提取特定单词
例子:
下面的实际输出
所需输出:
基本上需要在我提到的特定词之前和之后提取文本
r - 使用 stringi 和 data.table 的上中间名
我有一个如下所示的 data.table:
我想操作 Name 列,以便将名称的第一个字符和中间名也放在上面:
我的方法如下:
- 使用“”作为分隔符拆分名称字符串
- 由 split 产生的列表中每个元素的上位第一个字符
- 使用 paste with collapse 将操作的列表元素粘贴在一起。
我尝试了这两种方法do.call
并lapply
使用用户定义的函数toUpperFirst
:
我不太明白出了什么问题。显然,拆分采用整个列,而不是按向量方式应用它。知道如何解决这个问题吗?