“qdapregex”的相关标签问题

0 投票

4 回答

180 浏览

regex - 使用 R，当字符串提取在数据框中创建列表元素时，如何为列表中的每个项目添加一行？

我在数据框变量中有数百个地址，需要从中提取邮政编码。一些地址包含多个城市，每个城市都有一个邮政编码。这是一个提取邮政编码的数据框和 R 代码的模拟示例。

rm_zipTyler Rinker包中的函数qdapRegex提取所有邮政编码，如果有多个邮政编码，则将它们放入列表中。

R如何为zip.Rinker下第1行中的每个邮政编码创建一个新行？像下面这样的东西是理想的。请注意，会有几十个地址有多个邮政编码，所以我希望有一个不需要手动步骤的解决方案。

谢谢你的时间。

PS 使用stringr，此代码提取邮政编码并提出相同的挑战。

regex r qdapregex

2014-10-12T12:25:54.380

0 投票

1 回答

159 浏览

regex - rm_between 在观察中具有多个标记

当每个观察只有一个标记实例时，这里有一些关于使用 rm_between 的有用答案。但是，我有一个数据集，我想在其中提取“”中的内容，并且一些观察结果有多个实例。例如：

新鲜或冷藏的大西洋鲑鱼“Salmo salar”和多瑙河鲑鱼“Hucho hucho”

当我使用这段代码时，

它创建了一个数据框，并为之前的同一行

被退回这是完美的。但是我需要丢失的数据。为了尝试保留它，我将代码稍微更改为：

用报价单中的数据创建一个列表。返回的同一行是：

其中有引用中的数据，但在引用之间也有一些信息，并且正在重复。我在编程方面相当新，并且想知道是否有一种方法可以编写不包含这些引用之间信息的代码。

regex r qdapregex

2015-06-29T15:43:22.410

0 投票

4 回答

1014 浏览

r - 在 rm_between 函数中使用逻辑运算符提取单词之间的字符串

我正在尝试提取单词之间的字符串。考虑这个例子 -

这也可能采取另一种形式，即

There我需要'million或之间的文本billion，包括它们。百万或十亿的存在是由运行时间决定的，而不是事先决定的。所以我需要从这句话中得到的输出是

[1] There are 2.3 million或者
[2] There are 2.3 billion

我正在使用包中的rm_between功能qdapRegex。使用此命令，我一次只能提取其中一个。

或者我必须使用

我如何编写一个可以检查是否存在million或billion在同一个句子中的命令。像这样的东西-

我希望这很清楚。任何帮助，将不胜感激。

r string qdapregex

2015-07-25T04:52:35.777

0 投票

1 回答

723 浏览

r - 在包含 R 中的关键字的 html 标签之间 Grep html 代码

在一个文件中，我想使用grep或者可能使用包qdapRegex的 rm_between函数来提取包含关键字的整个 html 代码部分，让我们说这个例子的“折扣率”。具体来说，我想要看起来像这个代码片段的结果：

和

这里的诀窍是它必须先找到贴现率，然后再提取其余部分。
它总是介于<P> and </P>或<TABLE and </TABLE>没有其他 html 标记之间。

可以在这里找到一个很好的示例 .txt 文件：

https://www.sec.gov/Archives/edgar/data/66740/0000897101-04-000425.txt

r qdapregex

2017-07-28T16:50:32.273

0 投票

2 回答

1398 浏览

r - 在r中提取pdf文本的子部分

我有一个文件夹中的 .pdf 文件列表，我想首先访问前两段文本，然后将它们存储在 .csv 文件中，我可以转换 pdf 文本但无法提取前两段。

这是我尝试过的

但这给了我“ NA ”

cat(txt[1])的输出是：

我要提取的是文本

有更好的方法吗？

r apply text-extraction qdapregex

2017-09-14T06:14:13.660

0 投票

4 回答

465 浏览

r - 如何在R中的特定目录中插入文本

我正在寻找一种将字符（名称）插入目录并创建 .csv 文件的优雅方法。我找到了一种可能的解决方案，但是我正在寻找另一种没有“替换”但在特定字符之间“插入”文本的解决方案。

r text replace insert qdapregex

2018-08-02T18:27:58.153

0 投票

1 回答

46 浏览

r - qdapRegex::rm_nchar_words 在涉及非英文字母时返回不同的结果？

请帮助我解决以下困惑：

为什么在第一个代码行中它没有以“”响应，但在第二个代码行中它按预期工作。我在这里想念什么？我唯一能想到的是，在第一行代码中，字符串是由非英文字母构建的。

有什么解决办法吗？

r nlp qdap qdapregex

2019-06-11T15:23:19.033

0 投票

0 回答

53 浏览

r - 使用 rm_between 提取复杂句子

我正在使用rm_between（来自qdapregex）试图从下面的句子中提取文本（文本以粗体突出显示只是为了澄清问题，在原始数据集中，所有文本都是相同的。试图根据2个指定字符串之间的位置进行提取）。

需要提取：

\n解释\n酸增加，与节点有显着相关性。与 ber 一致。\ne由 KMN MA 签名，2020 年 6 月 1 日；数据；报告；

或提取这个

\n解释\n酸增加，与节点有显着相关性。与 ber 一致。\ne由 KMN MA 签名，2020 年 6 月 1 日；数据；报告；

我尝试了以下代码，但它们一直返回 NA

有什么建议么？我更喜欢使用相同的包（因为我已经从同一个数据集中提取了其他短语），但如果你建议我愿意尝试其他的

我认为问题在于我要提取的文本中有换行符，所以我想我可以将所有换行符更改为空格然后提取（例如使用此方法从使用 R 的字符串中删除所有换行符（输入符号））但我如果可能的话，更喜欢保留换行符，任何建议都非常感谢

谢谢你

r string qdapregex

2020-06-18T06:43:58.123

0 投票

2 回答

187 浏览

r - 使用逻辑运算符检测 r 中的多个模式？

我正在尝试检测数据帧中的一个变量中是否存在/不存在某些模式组合。

有一些问题是相似的，但我找不到一个能准确回答我想要达到的目标的问题。

我试图找到：

如果模式存在
使用逻辑运算符（and、or、not = $、|、!）定义多个模式
忽略大小写
以 true/false 将输出作为另一列返回

我仍然找不到解决方法，但我会分享我到目前为止所做的事情，以获得您的指导：

创建示例数据框

此代码检测到任何 2 个指定字符串 (?i) 的存在意味着忽略大小写。

这个通过过滤所需的组合来工作：

它适用于| & !
但它只过滤感兴趣的行，如果模式存在，有没有办法将另一列添加到数据集中？

最后，我发现这个包看起来可以完成这项工作，但它只适用于向量，有没有办法让它适用于数据框中的变量？像使用 lapply 或其他东西来返回另一个带有 True/False 的变量？

r text dplyr stringr qdapregex

2020-09-26T18:54:57.090

问题标签 [qdapregex]

Reference