问题标签 [qdapregex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 使用 R,当字符串提取在数据框中创建列表元素时,如何为列表中的每个项目添加一行?
我在数据框变量中有数百个地址,需要从中提取邮政编码。一些地址包含多个城市,每个城市都有一个邮政编码。这是一个提取邮政编码的数据框和 R 代码的模拟示例。
rm_zip
Tyler Rinker包中的函数qdapRegex
提取所有邮政编码,如果有多个邮政编码,则将它们放入列表中。
R如何为zip.Rinker下第1行中的每个邮政编码创建一个新行?像下面这样的东西是理想的。请注意,会有几十个地址有多个邮政编码,所以我希望有一个不需要手动步骤的解决方案。
谢谢你的时间。
PS 使用stringr
,此代码提取邮政编码并提出相同的挑战。
regex - rm_between 在观察中具有多个标记
当每个观察只有一个标记实例时,这里有一些关于使用 rm_between 的有用答案。但是,我有一个数据集,我想在其中提取“”中的内容,并且一些观察结果有多个实例。例如:
新鲜或冷藏的大西洋鲑鱼“Salmo salar”和多瑙河鲑鱼“Hucho hucho”
当我使用这段代码时,
它创建了一个数据框,并为之前的同一行
被退回这是完美的。但是我需要丢失的数据。为了尝试保留它,我将代码稍微更改为:
用报价单中的数据创建一个列表。返回的同一行是:
其中有引用中的数据,但在引用之间也有一些信息,并且正在重复。我在编程方面相当新,并且想知道是否有一种方法可以编写不包含这些引用之间信息的代码。
r - 在 rm_between 函数中使用逻辑运算符提取单词之间的字符串
我正在尝试提取单词之间的字符串。考虑这个例子 -
这也可能采取另一种形式,即
There
我需要'million
或之间的文本billion
,包括它们。百万或十亿的存在是由运行时间决定的,而不是事先决定的。所以我需要从这句话中得到的输出是
[1] There are 2.3 million
或者
[2] There are 2.3 billion
我正在使用包中的rm_between
功能qdapRegex
。使用此命令,我一次只能提取其中一个。
或者我必须使用
我如何编写一个可以检查是否存在million
或billion
在同一个句子中的命令。像这样的东西-
我希望这很清楚。任何帮助,将不胜感激。
r - 在包含 R 中的关键字的 html 标签之间 Grep html 代码
在一个文件中,我想使用grep或者可能使用包qdapRegex的 rm_between函数来提取包含关键字的整个 html 代码部分,让我们说这个例子的“折扣率”。具体来说,我想要看起来像这个代码片段的结果:
和
- 这里的诀窍是它必须先找到贴现率,然后再提取其余部分。
- 它总是介于
<P> and </P>
或<TABLE and </TABLE>
没有其他 html 标记之间。
可以在这里找到一个很好的示例 .txt 文件:
https://www.sec.gov/Archives/edgar/data/66740/0000897101-04-000425.txt
r - 在r中提取pdf文本的子部分
我有一个文件夹中的 .pdf 文件列表,我想首先访问前两段文本,然后将它们存储在 .csv 文件中,我可以转换 pdf 文本但无法提取前两段。
这是我尝试过的
但这给了我“ NA ”
cat(txt[1])的输出是:
我要提取的是文本
有更好的方法吗?
r - 如何在R中的特定目录中插入文本
我正在寻找一种将字符(名称)插入目录并创建 .csv 文件的优雅方法。我找到了一种可能的解决方案,但是我正在寻找另一种没有“替换”但在特定字符之间“插入”文本的解决方案。
r - 使用 rm_between 提取复杂句子
我正在使用rm_between(来自qdapregex)试图从下面的句子中提取文本(文本以粗体突出显示只是为了澄清问题,在原始数据集中,所有文本都是相同的。试图根据2个指定字符串之间的位置进行提取)。
需要提取:
\n解释\n酸增加,与节点有显着相关性。与 ber 一致。\ne由 KMN MA 签名,2020 年 6 月 1 日;数据;报告;
或提取这个
\n解释\n酸增加,与节点有显着相关性。与 ber 一致。\ne由 KMN MA 签名,2020 年 6 月 1 日;数据;报告;
我尝试了以下代码,但它们一直返回 NA
有什么建议么 ?我更喜欢使用相同的包(因为我已经从同一个数据集中提取了其他短语),但如果你建议我愿意尝试其他的
我认为问题在于我要提取的文本中有换行符,所以我想我可以将所有换行符更改为空格然后提取(例如使用此方法从使用 R 的字符串中删除所有换行符(输入符号))但我如果可能的话,更喜欢保留换行符,任何建议都非常感谢
谢谢你
r - 使用逻辑运算符检测 r 中的多个模式?
我正在尝试检测数据帧中的一个变量中是否存在/不存在某些模式组合。
有一些问题是相似的,但我找不到一个能准确回答我想要达到的目标的问题。
我试图找到:
- 如果模式存在
- 使用逻辑运算符(and、or、not = $、|、!)定义多个模式
- 忽略大小写
- 以 true/false 将输出作为另一列返回
我仍然找不到解决方法,但我会分享我到目前为止所做的事情,以获得您的指导:
创建示例数据框
此代码检测到任何 2 个指定字符串 (?i) 的存在意味着忽略大小写。
这个通过过滤所需的组合来工作:
- 它适用于| & !
- 但它只过滤感兴趣的行,如果模式存在,有没有办法将另一列添加到数据集中?
最后,我发现这个包看起来可以完成这项工作,但它只适用于向量,有没有办法让它适用于数据框中的变量?像使用 lapply 或其他东西来返回另一个带有 True/False 的变量?