问题标签 [fuzzyjoin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
117 浏览

r - 与 data.table 进行“模糊”和非模糊的多对一合并

假设我有两个数据库dfAdfB. 一个有个人观察,一个有国家级数据(适用于来自同一年份和国家的多个观察)对于这些数据库中的每一个,我都创建了一个名为 matchcode 的键。此匹配代码是国家代码和年份的组合。

大多数情况下,当我合并这些数据集时,我只是这样做:

问题是有时年份并不完全匹配。所以我尝试了:

但这会将观察次数减少到 11 个。

首选输出如下:

其他来源:

1.之前的尝试

2. 之前的尝试

0 投票
1 回答
942 浏览

r - R:Regex_Join/Fuzzy_Join - 以不同的词序加入不精确的字符串

df1

在此处输入图像描述

df2

在此处输入图像描述

df3

在此处输入图像描述

我想使用字符串“Apple”、“Sock”和“Mouse Dog”将 df2 的 c 列附加到 df1。

我尝试使用regex_joinblurjoin执行此操作,但字符串的顺序似乎很重要,并且似乎找不到解决方法。

0 投票
3 回答
490 浏览

r - R - 仅对最接近的整数进行模糊连接

假设我有这个数据集开始,在这个愚蠢的布局中:

在此处输入图像描述

我希望它看起来像这样:

在此处输入图像描述

基本上,我想将 Weight、Age 和 Height 行与其上方的 Name 行匹配。拆分数据很容易使用dplyr

从这里开始,使用索引(行号)似乎是最好的方法,即将每一行与具有最接近索引detailsDF的条目匹配而不重复。namesDF我使用了这个fuzzyjoin包并加入了他们

这种工作方式,但它也将每一行与每一行连接detailsDF在一起,namesDF并具有较小的索引号:

在此处输入图像描述

我想出了一个解决方案,使用到下一个索引的距离并以这种方式过滤掉多余的行,但我想避免这样做;实际的源文件将超过 200k 行,并且带有额外行的临时结果数据框太大而无法放入内存。有什么我可以在这里做的吗?谢谢!

0 投票
1 回答
93 浏览

r - 按日期范围和 ID 连接,面板数据

我有基本的基金数据,我想按日期范围和基金ID添加经理姓名

我尝试了模糊右连接 x = fuzzy_right_join(manager, fundret, by = c("fundName" = "fundName", "date"= "managerStartdate", "date" = "managerENDdate"), match_fun = list('==', '>', '<')) 但有一个错误

Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...) :could not find function "mf

我尝试了一些 if /else 功能,但仍然不起作用......

这是我想联合的

谢谢你的帮助

经理:https ://i.stack.imgur.com/sbfk7.jpg

基金: https ://i.stack.imgur.com/aQyj1.jpg

想要的结果: https ://i.stack.imgur.com/DbWap.jpg

0 投票
0 回答
42 浏览

r - 模糊匹配并从字符串向量中提取字符串以完成数据帧

我有一个法语名字列表,有一些小的语法差异。

“Arnoud(儿子)”、“Arnoud”、“Arnous”所有这些名字都属于同一个家族。我希望能够创建一个数据框对象来按家庭对个人进行分组

0 投票
2 回答
1562 浏览

r - Merging two tables where one column is substring of the other in R

I have two data.frames with columns that contain accession numbers

subset of df 1:

subset of df 2:

I would like to merge the two dataframes by the column database_accession but the problem is they are not exact matches. the string insub_df2 is a substring of the string in sub_df1.

I thought about using fuzzyjoin but having a hard time getting the match algorithm right.

0 投票
1 回答
81 浏览

r - 将一个数据帧中的每一行与 tidyverse 中另一个数据帧的每一行进行比较

我需要将一个数据帧的每一行与另一个数据帧的每一行进行比较:

另一个

我想用 tidyverse 来做,但另一种方式也是可以接受的。我不想使用循环。ID 中没有匹配项。任务是在列上进行一种模糊连接first_name, last_name, amount, currency, comment。我看到的一种方法是nrow将另一行的第一个数据帧时间的每一行分散并使用映射,但我认为它的内存效率非常低。

0 投票
1 回答
329 浏览

r - Fuzzy merge on multiple variables (all but one with no mispellings)

I need to match two datasets on three variables. Two of the three variables do not present misspellings (by design). The fuzzy match is required only for the third variable.

The standard fuyyzmerge generate some issues by fuzzy-joining all three variables.

Is there a way to specify which of the three should be fuzzy matched and which exact-matched?

reproducible example:

Ideal result:

0 投票
1 回答
916 浏览

r - 使用 data.table 模糊连接两个数据帧

0 投票
2 回答
212 浏览

r - 完全匹配某些列,部分与 inner_join

我有两个来自不同来源的数据框指的是同一个人,但由于自我报告数据的错误,日期可能略有不同。

示例数据:

我想通过确切的名称匹配,与 dplyr 类似:

还可以通过 30 天内的出生日期 (dob),使用以下模糊连接包:

但是结合这两个条件,这样只会返回 Ann