问题标签 [fuzzyjoin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R - 仅对最接近的整数进行模糊连接
假设我有这个数据集开始,在这个愚蠢的布局中:
我希望它看起来像这样:
基本上,我想将 Weight、Age 和 Height 行与其上方的 Name 行匹配。拆分数据很容易使用dplyr
:
从这里开始,使用索引(行号)似乎是最好的方法,即将每一行与具有最接近索引detailsDF
的条目匹配而不重复。namesDF
我使用了这个fuzzyjoin
包并加入了他们
这种工作方式,但它也将每一行与每一行连接detailsDF
在一起,namesDF
并具有较小的索引号:
我想出了一个解决方案,使用到下一个索引的距离并以这种方式过滤掉多余的行,但我想避免这样做;实际的源文件将超过 200k 行,并且带有额外行的临时结果数据框太大而无法放入内存。有什么我可以在这里做的吗?谢谢!
r - 按日期范围和 ID 连接,面板数据
我有基本的基金数据,我想按日期范围和基金ID添加经理姓名
我尝试了模糊右连接
x = fuzzy_right_join(manager, fundret, by = c("fundName" = "fundName", "date"= "managerStartdate", "date" = "managerENDdate"), match_fun = list('==', '>', '<'))
但有一个错误
Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...) :could not find function "mf
我尝试了一些 if /else 功能,但仍然不起作用......
这是我想联合的
谢谢你的帮助
经理:https ://i.stack.imgur.com/sbfk7.jpg
基金: https ://i.stack.imgur.com/aQyj1.jpg
想要的结果: https ://i.stack.imgur.com/DbWap.jpg
r - 模糊匹配并从字符串向量中提取字符串以完成数据帧
我有一个法语名字列表,有一些小的语法差异。
“Arnoud(儿子)”、“Arnoud”、“Arnous”所有这些名字都属于同一个家族。我希望能够创建一个数据框对象来按家庭对个人进行分组
r - Merging two tables where one column is substring of the other in R
I have two data.frames with columns that contain accession numbers
subset of df 1:
subset of df 2:
I would like to merge the two dataframes by the column database_accession
but the problem is they are not exact matches. the string insub_df2
is a substring of the string in sub_df1
.
I thought about using fuzzyjoin but having a hard time getting the match algorithm right.
r - 将一个数据帧中的每一行与 tidyverse 中另一个数据帧的每一行进行比较
我需要将一个数据帧的每一行与另一个数据帧的每一行进行比较:
另一个
我想用 tidyverse 来做,但另一种方式也是可以接受的。我不想使用循环。ID 中没有匹配项。任务是在列上进行一种模糊连接first_name, last_name, amount, currency, comment
。我看到的一种方法是nrow
将另一行的第一个数据帧时间的每一行分散并使用映射,但我认为它的内存效率非常低。
r - Fuzzy merge on multiple variables (all but one with no mispellings)
I need to match two datasets on three variables. Two of the three variables do not present misspellings (by design). The fuzzy match is required only for the third variable.
The standard fuyyzmerge generate some issues by fuzzy-joining all three variables.
Is there a way to specify which of the three should be fuzzy matched and which exact-matched?
reproducible example:
Ideal result:
r - 完全匹配某些列,部分与 inner_join
我有两个来自不同来源的数据框指的是同一个人,但由于自我报告数据的错误,日期可能略有不同。
示例数据:
我想通过确切的名称匹配,与 dplyr 类似:
还可以通过 30 天内的出生日期 (dob),使用以下模糊连接包:
但是结合这两个条件,这样只会返回 Ann