问题标签 [stringi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在R中删除不在大写字母中的单词?
我正在使用 R 进行文本分析。有没有办法使用tm
or删除所有不在大写字母中的单词stringi
?
如果我有这样的事情
被转换成
此致
r - 在 R 中使用 gsub 删除 LineFeed
我有一个 100 万行的文件,一旦读取readLines
可以压缩为:
我想删除文件中出现的 LFLF 序列和空格(这将导致删除第 2、5 和 8行并将第3 行附加到 1;6 到 4 和 9 到 7(原始行编号))。所以我尝试了:
最后两行是从这个 SO post借来的。
我应该如何进行?
预期输出:
r - stri_replace_all_regex 不接受来自导入的模式替换文件的结果
我有一个可以查找和替换大约一百个术语的 applescript。使用正则表达式。我想在 R 中导入这个查找和替换函数。因此,在 ScriptEditor 中,我将 AppleScript 保存为文本文件并通过 readLines() 将其导入 R。此导入的 dput() 结果类似于下面的 punct.out。当我从原始向量而不是从导入创建自己的模式和替换数据框时(请参见下面的 punct),然后在测试字符串上的查找和替换(请参见下面的测试)工作得很好。但是,当我对导入的数据框尝试相同的命令时,它不起作用,它返回 NA。
所以不知何故,导入的文本结果并没有被解释为正则表达式或字符向量......我无法弄清楚。
第二个问题:我根据下面的评论解决了上面的问题。但是,一些正则表达式的出现存在一些具体问题。具体来说,我不知道如何转义反斜杠以打印在正则表达式中匹配的第一个和第二个模式,即 \1、\2 等。
r - r中的正则表达式误解
我似乎不了解 gsub 或 stringr。例子:
好的。但:
我会预料到的
“一本书”
我用空格替换句号。
另外:srintr
:str_replace(a, ".", " ")
返回:
" .book"
并str_replace_all(a, ".", " ")
返回
" "
我可以使用stringi
: stri_replace(a, " ", fixed=".")
:
"a book"
我只是想知道为什么 gsub(和 str_replace)没有像我预期的那样行事。它们在用另一个字符替换空格时起作用,但反之则不行。
regex - stringi 的 stri_replace_first_regex 的替换不被视为正则表达式
我有一个字符串,我试图用相应的替换替换第一个匹配模式。EG 在我下面的示例中:如果bb
首先找到,将其替换为foo
并且不替换任何其他内容,但如果cc
首先找到,则将其替换为bar
并且不替换任何其他内容。
这几乎符合预期,除了replacement
参数不被解释为正则表达式,而是作为一个完整的字符串。(但pattern
根据需要,该参数被视为正则表达式)。
输出:" foo | bar cc bb cc " " foo | bar bb cc bb " " aa foo | bar cc "
虽然我希望它输出" foo cc bb cc " " bar bb cc bb" " aa foo cc "
关于如何解决这个问题的任何想法?
谢谢。
更多上下文:
我的输入几乎可以有任何格式,它们是客户输入的邮政地址,我需要用标准化的东西替换街道的类型(例如,street
变成st
、road
inrd
和avenue
in av
)。这些单词中的任何一个都可以再次出现(例如),所以我只认为第一次出现是有效的,并且不能替换列表20 bis road of sesame street
中单词的后续出现。pattern
r - R lapply 使用 stringi 和 rbind
我想按特定字符串拆分数据框中的一些数据并计算频率。
在玩弄了一些方法之后,我想出了一个方法,但是我的结果有一点错误。
例子:
数据框数据文件:
列表:
我的代码:
在此示例中,我希望CSV文件具有以下结果:
但是,使用我的代码,我得到了:
我知道stri_extract
应该在其中识别abc
,abc hello
所以当我使用时可能会发生错误rbind
?
r - 包依赖错误“没有名为'stringi'的包”
我创建了一个 R 包并将其加载到 github ( microdadosBrasil )。当我尝试安装软件包时(作为用户),我收到以下错误:
我尝试通过将stringi添加到包依赖项中来解决这个问题。
我还在 NAMESPACE 中包含了包导入
但是,即使那样,我也会遇到相同的安装错误。老实说,我什至不知道我的包中有任何使用该stringi
包的显式函数。
如果我stringi
在此之前安装,则microdadosBrasil
安装有效:
这是发生错误时的会话信息(预安装之前 stringi
)
r - 使用正则表达式字典过滤 TermDocumentMatrix
我觉得这应该很容易。我有一本目前采用 glob 格式的术语字典,我已将其转换为正则表达式。我将它们转换为正则表达式的原因是因为我认为 tm 包只适用于它们。没关系。但我无法弄清楚如何通过传递多个字典术语来对 termDocumentMatrix 进行子集化。另一个转折是字典术语有多个长度,有些是 1,有些是 2,有些是 3 个单词。
以下是我当前的代码。
r - 在 R 中将重音符号转换为 ASCII
我正在尝试将特殊字符转换为 R 中的 ASCII。我尝试在这个问题中使用 Hadley 的建议:
但我得到了“乔斯”。我正在使用 stringi v1.1.1。
我正在运行 Mac。我正在运行 Windows 机器的朋友似乎得到了“何塞”的预期结果。
知道发生了什么吗?
regex - R中的字符串-在选定的字母字符和数字字符之间插入空格
我有需要保持一致的医院病房数据。第一个数字是楼层号,后面的字母是病房缩写,最后两个数字是床号。
所以 2EA 28 将是 2 楼,Ward East 和 Bed 28。
这些位置输入的空格不一致,因此我有以下内容:
我希望它看起来像以下
如果前面没有数字,我会一次分出数字和字符,但因为它是数字,所以字符数字会造成问题。有 1462 行。
更复杂的情况是,像 ICU 这样的底层病房没有预先编号。
根据要求添加 - 人类可读的名称
人类可读的名称: