问题标签 [fuzzyjoin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R中的部分字符串匹配并修剪字符
这是一个数据框和一个向量。
现在,对于 var1 中与 vec 中的值最接近(我想匹配前 n 个字符)的所有值,在 var1 中只保留 vec的前 3 个字符,以便所需的解决方案是:
由于“abcd”在 vec 中与“ab”最接近,我们只保留最多 3 个“ab”字符,在这种情况下,在 df2 中为 2,但“efgh”在 vec 中不存在,所以我们保持原样即df2中的“efgh”等等。
我可以使用 dplyr、stringr、fuzzyjoin、agrep 或 blurwuzzyr 来完成此任务吗?感谢 Psidom,您可能希望在https://stackoverflow.com/a/51053674/6762788的以下建议的基础上进行构建。
r - R:两个数据集之间的模糊连接
我需要模糊匹配并获取两个不同数据集中的 zip / 地址之间的距离。
下面是一个例子:
现在我library(fuzzyjoin)
结合使用library(dplyr)
来创建以下脚本:
该脚本工作正常。但我想在以下地址组合之间有不同的距离:
a) 1204 Roma Street 8 与 1204 Roma Street 81 --> 距离 = 0.0147
b) 1204 Roma Street 8 与 1204 Roma Street 8A --> 距离 = 0.0147
现在,罗马街 81 号离罗马街 8 号很远。另一方面,罗马街 8A 号非常靠近罗马街 8 号。
所以,对于 8A,我需要一个非常接近 0 的距离,对于 81,我需要距离 0 很远。
怎么可能做到这一点?
r - Inner join with two reactive dataframes shiny
I'm developing a R Studio Shiny app, the logic consist in load two excel files into dataframes and using fuzzyjoin package to make a inner join between these dataframes, below is the code of my shiny.r and server,r, loading of excel files are correctly but when I get into Conciliacion tab I'm receiving the error
Error in : Column
col
must be a 1d atomic vector or a list:
ui.R:
server.R
Any help would be greatly appreciated. Thanks.
r - 匹配包含不同编码的引号的文本字符串
我有两个包含相同信息的数据框。第一个包含唯一标识符。我想用户dplyr::inner_join
按标题匹配。
不幸的是,其中一个数据框包含 {"} 来表示引号,而另一个仅使用单引号
例如,我想匹配下面显示的两个标题。
r - R中的模糊外连接/合并
我有 2 个数据集并想做模糊连接。
这是两个数据集。
两个数据集在State
和中具有相同的字符type
;但是,列NAME
不一样。它们是相似的。
虽然我可以NAME
用 3 或 4 个宪章减去每个数据的列,然后将它们合并,但由于观察量大,似乎正确率可能不高。
方法不好。
我检查包裹fuzzyjoin
。但不确定我是否正确。
本练习的结果是正确的,见下文。但是如果这两个数据中的任何NAME 相同,则答案将不正确。
我在这两个数据中创建了一个新的观察结果。
这是不正确的结果。有什么建议吗?
看来我不能使用fuzzy_full_join
.
r - 条件连接数据帧 R
我有一个简单的问题,我无法正确掌握。
我有两个数据框,第一个仅包含日期(每个月持续数年),第二个还包含日期和其他一些数据,但仅包含第二个变量发生变化的月份。像下面这样:
我需要做的是加入 df1 和 df2,为 df1 中小于或等于 df2 中的日期的每个日期关联“Vals”中的相应值。输出应如下所示(我想找到一种以矢量化方式进行的方法):
我尝试过使用 dplyr 的连接和模糊连接包,但我无法正确获得它(我是 R 的初学者)。当然,如果有人能提出使用这些软件包的解决方案,我会非常高兴。谢!
r - 同时模糊和非模糊连接
假设我有这个数据框:
现在,我想加入第二个数据框:
我想要一个完美的匹配ID
和最接近的匹配loc
。我查看了fuzzyjoin
包,但不幸的是,对于不同的列,您不能有不同程度的模糊性。也就是说,我无法ID
为loc
. 因此,作为一种解决方法,我通过左连接,计算和ID
之间的距离(即,分别来自数据帧和数据帧的 s),按和分组,按 s 之间的距离排序,并取第一行(即最短距离):loc.x
loc.y
loc
df
df_alt
ID
loc.x
loc
这不是特别有效,但给出了预期的结果。当数据框变大时,就会出现问题。以足够大的速度重新运行上述代码n
会产生以下错误:
错误:无法分配大小的向量...
我认为这是因为左连接产生了一个不必要的巨大数据框。显然,join-then-filter 并不是最好的策略。但是同时进行模糊和非模糊连接的最佳方法是什么?
r - 模糊匹配/连接大学名称的两个数据框
我有一个包含拼写错误和不一致的大学名称列表。我需要将它们与大学名称的官方列表进行匹配,以将我的数据链接在一起。
我知道模糊匹配/加入是我要走的路,但我对正确的方法有点迷失。任何帮助将不胜感激。
我想要一个让它们尽可能紧密地融合在一起的输出
r - 在 R 中使用 stringdist_join() 进行模糊连接,错误:下标分配中不允许使用 NA
首先,如果我的格式不好,我很抱歉,这是我第一次发帖,(也是编程和 R 的新手)
我正在尝试将两个数据框合并到字符串变量上。我正在合并可能不完全匹配的大学名称,所以我希望使用模糊或近似字符串匹配函数进行合并。当我找到“fuzzyjoin”包时,我很高兴。
来自 cranR:stringdist_join:根据列的模糊字符串匹配连接两个表
我的代码:
错误:
我知道这些列中有一些 NA,但我不确定如何删除它们,因为我也需要它们。我知道 NA 的其他加入和合并功能将被忽略。有谁知道解决此包的此错误或以另一种方式对字符串进行近似连接的方法。谢谢您的帮助。
r - 结合 data.table 中的合并执行“模糊连接”(和非模糊连接)
我正在使用多个数据库。对于这些数据库中的每一个,我都创建了一个名为matchcode
. 这matchcode
是国家代码和年份的组合。大多数情况下,当我合并这些数据集时,我只是这样做:
问题是有时年份并不完全匹配:
我正在寻找一个 data.table 解决方案,该解决方案类似于Jaap 的以下答案:
但是,除了此解决方案之外,我还想:
- 将两个数据库的所有列都放在新的 data.table 中。
- 将滚动限制为
+1 | -1
。但是,当我输入它时,它似乎没有正确应用它。
对于 1. 我显然需要使用 mget,再次感谢 Jaap:
但是,我似乎无法成功地将其组合在一起。我试过了:
但这给出了:
起作用的是以下内容:
关于如何进行的任何建议?