问题标签 [stringi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
402 浏览

regex - 用不同的替换顺序替换字符串中匹配单个模式的多个位置

使用stringr包,很容易以向量化的方式执行正则表达式替换。

问题:我该如何执行以下操作:

替换每个单词

不同的替代品,例如增加数量

请注意,不能假设简单的分隔符,实际用例更复杂。


stringr::str_replace_all似乎不起作用,因为它

为应用于所有单词的每个替换生成一个向量,或者它具有不确定和/或重复的输入条目,因此

将无法达到目的。

0 投票
1 回答
52 浏览

linux - Text encoding - fine on Windows, not nix

I have an issue with loading data between default encoding on Win and nix machines (ISO-8859-1 and UTF-8 respectively).

Example - Windows first:

In Windows the above produces "BOAS" as desired.

Now move to nix and use the saved file:

Nix gives "B??S".

I believe this is a read.table encoding issue but haven't been able to figure out how to get nix to use ISO-8859-1. Any suggestions?

0 投票
0 回答
169 浏览

r - 使用 stringdist 包对带有空格的变量进行字符串匹配

我正在尝试将数据集中的字符串与 jaro 距离相匹配。问题是我得到带有空格的字符串作为匹配项。这是数据:

有没有办法可以处理空格匹配?我期待这样的输出。

0 投票
2 回答
74919 浏览

r - loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]) 中的错误:没有名为“stringi”的包

当我使用

我收到以下错误

同样,如果我使用

我收到以下错误

我尝试安装'stringi' install.packages("stringi")

但是在某些时候,在安装过程中,我收到以下错误消息:

我正在使用 RStudio(版本 0.99.447)并且我有 R 版本 3.2.1。

0 投票
0 回答
347 浏览

r - 安装ggp​​lot2时出错,需要c编译器

我正在尝试ggplot2在合作者的 Mac 计算机上安装。我收到此错误:

看来我需要安装一个 C 编译器。搜索了一圈后,我看到的唯一提到的是gcc。要安装它,我需要从 App Store 安装 XCode。当我尝试安装 XCode 时,我收到一条消息说需要 Mac OS 10.10 或更高版本。他的机器是 10.7.5,所以它不会安装。

有什么方法可以安装gcc吗?

0 投票
2 回答
1486 浏览

regex - 使用正则表达式提取 r ngram

Karl Broman 的帖子:https ://kbroman.wordpress.com/2015/06/22/randomized-hobbit-2/让我玩正则表达式和 ngram 只是为了好玩。我尝试使用正则表达式来提取 2-grams。我知道有解析器可以做到这一点,但我对正则表达式逻辑感兴趣(即,这是我未能满足的自我挑战)。

下面我给出一个最小的例子和所需的输出。我尝试的问题是2倍:

  1. 克(单词)被吃掉了,不能用于下一次传递。 如何使它们可用于第二次通行证?(例如,我希望likelike toast之前已经使用过之后可以使用I like

  2. 我无法使单词之间的空格未被捕获(请注意输出中的尾随空格,即使我使用了(?:\\s*))。 如何不捕获第 n 个(在本例中为第二个)单词的尾随空格?我知道这可以简单地完成:"(\\b[A-Za-z']+\\s)(\\b[A-Za-z']+)"对于 2-gram,但我想将解决方案扩展到 n-gram。PS我知道,\\w但我不认为下划线和数字是单词的一部分,而是考虑'作为单词的一部分。

MWE:

期望的输出:

0 投票
6 回答
38582 浏览

r - 更新到 R3.2.1 后包 'stringi' 不起作用

我看到了这个问题的一个版本,但仍然没有看到答案。我正在尝试使用 ggplot2,但出现以下错误(今天早上使用 RStudio 版本 0.98.1102 的 R3.0.2 '飞盘航行' 一切正常。

我更新了 R 和 Rstudio,现在得到以下信息:

所以很自然地我尝试了:

关于如何安装“stringi”的任何建议?我对错误输出并不熟悉。我应该尝试回到旧版本的 R 和 Rstudio 吗?最终,我担心这将是现在无法与更新的 R 一起使用的软件包的冰山一角

哦,还有:

0 投票
2 回答
8151 浏览

r - 如果有多个单词,则在逗号后提取字符串中的最后一个单词,否则提取第一个单词

我的数据如下

我想从数据中提取国家名称。棘手的部分是如果我只提取最后一个单词,那么我将只有一个记录(法国)。

关于如何从这些数据中提取国家数据的任何想法?

0 投票
7 回答
51263 浏览

r - R 中的错​​误:(包仅以源代码形式提供,可能需要编译 C/C++/Fortran)

我正在尝试在 R-Studio 中安装 'yaml' 和 'stringi' 包,它不断给我这些错误:

或者

我怎样才能让这些正确安装?

0 投票
2 回答
264 浏览

r - 从不同的列中提取字符串并在 R 中整理数据

我正在尝试从数据集中提取电影类型的字符串。数据采用以下格式,其中流派类型由不同的评论者随机分布在数据集中。幸运的是,数据集中只有 4 种流派类型(喜剧、动作、恐怖、科幻),但也有重复。所以我需要从数据集中提取这些字符串。

我期待以下形式的输出。

有什么建议么?