问题标签 [stringr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - 类似字符串查找循环的向量化
我有一个很大的字符串向量,如下所示:
我不想从同一个向量 d 中为每个字符串获取相似的字符串。
我这样做是通过
1. 根据某些规则为每个字符串计算与所有其他字符串字符串的编辑距离,例如,如果存在任何数字或字母字符数小于 5,则强制精确匹配。
2. 将其放入数据框 dist 和字符串。
3. 基于距离 < 3 的子集 dist。
4. 折叠相似的字符串并将其添加到原始数据框中作为新列。
我正在使用stringr
和stringdist
包
是否可以对过程进行矢量化而不是使用循环?我有一个非常大的字符串向量,因此stringdistmatrix
由于内存限制,无法使用整个向量计算距离矩阵。该循环适用于大数据,但速度很慢。
regex - 从R中的字符串中提取电话号码
我正在从文本中提取 - 使用'stringr'
RI 中的包找到了这个例子:
但是我的字符串采用以下格式:
但我不确定pattern
要提取上述所有格式。任何帮助都会很棒。
regex - 基于 stringr 的函数的奇怪行为
为了更改结果数据框中的值,我使用stringr
基于 - 的函数,在 Hadley Wickham 的回答中推荐(https://stackoverflow.com/a/12829731/2872891)。df
除了最后更改为我更喜欢的之外,我保留了该功能return (df)
。但是,我看到一些奇怪的行为,我不确定是什么原因。的后续调用replace_all
,特别是调用 #3 和 #4 不会恢复原始数据:http:
和mailto:
. 下面是一个可重现的例子。
数据(只有一条数据记录):
请在 GitHub 上查看此要点:https ://gist.github.com/abnova/1709b1e0cf8a57570bd1#file-gistfile1-r
代码(为简洁起见,我删除了带有详细解释的评论):
结果 - 实际:
结果 - 预期:
我将不胜感激任何帮助和/或建议。
regex - 从 R 中的文本中提取信息
我正在研究 R 中的实体提取。我有一个UniqueID
andText
字段 - 需要从文本字段中提取位置信息。我的文本字段有带有位置名称的描述
我有一个位置列表;
需要匹配loc
并从字段中提取这些位置text
。在文本字段SENOKO INDUSTRIAL ESTATE
中以不同方式拼写Senoko Estate
或Senoko
(半名)或拼写错误senok Est.
。对于上述所有拼写错误和半拼写的单词 - 我需要得到确切的名称从loc
即。SENOKO INDUSTRIAL ESTATE
.
我的输出看起来像:(从文本字段中提取位置 - 为半拼和拼写错误的单词获取正确的单词)
r - 大字符串向量到data.frame
我有一个大向量(100M 个元素)的单词类型:
(在实际的数据字中并不完全相同,而是长度均为 8)
我想将它们转换为一个数据框,该数据框对于单词的每个字母都有一列,每个单词都有一行。为此,我已经尝试过str_split_fixed
结果rbind
,但在大向量 R 上冻结/永远。
所以想要的形式输出:
有没有更快的方法来做到这一点?
regex - 删除两个括号之间的所有文本
假设我有一些这样的文字,
我想删除(编辑:摆脱)[和](以及括号本身)之间的所有文本。最好的方法是什么?这是我使用正则表达式和 stingr 包的微弱尝试:
谢谢你的帮助!
regex - 删除 r 中 str_split 中的左括号
我怎样才能在 R 中完成这项工作?
gregexpr("(", "US (California, San Luis Obispo County)", fixed = FALSE, : invalid regular expression '(', reason 'Missing ')'' 中的错误
gregexpr("(", "US (California, San Luis Obispo County)") 中的错误:无效的正则表达式 '(',原因 'Missing ')''
gregexpr("(", "US (California, San Luis Obispo County)", perl = T) 中的错误:无效的正则表达式 '('
此外,警告信息:
r - 使用文本文件中的模板创建目录结构
假设我有一个文本文件text.txt
,其中包含几行使用单个空格(而不是制表符)缩进的文本,例如:
例如,实际的目录模板可能如下所示:
本质上,该文件是目录结构的模板。该模板可由用户设置。她可以为不同的项目使用不同的模板,并且名称是通用的。唯一的限制是层次结构是使用空格建立的,并且文件夹以正斜杠结尾。
我想编写一个函数,它将任何这样的目录模板作为输入,并在您当前的工作目录中创建一个目录结构。伪代码如下:
string - 使用 R 填写文本文件
我有一个这样的文本文件:
“你好,
我有 %d 只狗和 %d 只猫,
其中平均重量分别为 %f 和 %f 公斤..."
我正在尝试创建一个 R 函数,该函数将向量(例如c(2, 3, 3.4, 2.3)
)作为输入,并使用其条目来填充文本文件中的 %f 和 %d (以正确的顺序)。
这应该很简单,但我找不到合适的方法。谢谢!
regex - R从字符串中仅删除“[”“]”
我有一个类似的东西:
我想删除每行(test[1] test[2] ...)的 [ 和 ] (第一个和最后一个字符),但保留点(22.9999)。
我尝试了一些 stringr 函数,但我不太喜欢正则表达式......你能帮帮我吗?
乙