问题标签 [agrep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
451 浏览

r - strsplit 与非字符数据

1我想对一个变量 ID1 进行 strsplit 以拆分为 ID1_s1 和 ID1_s2,我需要去掉括号中的字符串。

如何进行 strplit 将基于 ID1 的 ID1_s1 和 ID_s2 "(" 括号分开?

我需要如下输出:

0 投票
1 回答
157 浏览

r - R - 基于不一致的全名格式的部分匹配合并两个数据文件

我正在寻找一种基于参与者全名的部分匹配来合并两个数据文件的方法,这些全名有时以不同的格式输入,有时拼写错误。我知道部分匹配(例如 agrep 和 pmatch)和合并数据文件有一些不同的功能选项,但我需要帮助 a) 将两者结合起来;b) 进行可以忽略中间名的部分匹配;c) 在合并的数据文件中存储原始名称格式和 d) 保留唯一值,即使它们没有匹配项。

例如,我有以下两个数据文件:

文件名称:员工资料

全名 开始日期 订单 ANGELA MUIR 6/15/14 25 EILEEN COWIE 6/15/14 44 LAURA CUMMING 10/6/14 43 ELENA POPA 1/21/15 37 KAREN MACEWAN 3/15/99 39

文件名称:评估数据

候选人主导因素 SI-D SI-I Angie muir I -3 12 Caroline Burn S -5 -3 Eileen Mary Cowie S -5 5 Elena Pope C -4 7 Henry LeFeuvre C -5 -1 Jennifer Ford S -3 -2 Karen麦克尤恩一世 -4 10 劳拉·卡明 S 0 6 曼迪普·乔哈尔 C -2 2 穆巴拉克·侯赛因 D 6 -1

我想根据名称(df1 中的全名和 df2 中的候选人)合并它们,忽略中间名(例如 Eilen Cowie = Eileen Mary Cowie)、额外空格(Laura Cumming = Laura Cumming);拼写错误(例如 Elena Popa = Elena Pope)等。

理想的输出如下所示:

姓名 全名 候选人 开始日期 订单 主导因素 SI-D SI-I ANGELA MUIR ANGELA MUIR Angie muir 6/15/14 25 I -3 12 Caroline Burn N/A Caroline Burn N/AN/AS -5 -3 EILEEN COWIE EILEEN COWIE Eileen Mary Cowie 6/15/14 44 S -5 5 ELENA POPA ELENA POPA Elena Pope 1/21/15 37 C -4 7 Henry LeFeuvre N/A Henry LeFeuvre N/AN/AC -5 -1 Jennifer Ford N/ A Jennifer Ford N/AN/AS -3 -2 KAREN MACEWAN KAREN MACEWAN Karen McEwan 3/15/99 39 I -4 10 LAURA CUMMING LAURA CUMMING Laura Cumming 10/6/14 43 S 0 6 Mandip Johal N/A Mandip Johal N/AN/AC -2 2 穆巴拉克·侯赛因 N/A 穆巴拉克·侯赛因 N/AN/AD 6 -1

任何建议将不胜感激!

0 投票
1 回答
687 浏览

r - 字符串匹配记录以计算数据框中的所有实例

我正在尝试从数据框中符合某些条件的行中提取所有字符串,例如每行中有多少单词匹配“玉米”。这是输入。

我正在尝试获得这样的输出

0 投票
1 回答
98 浏览

java - agrep.exe 多次使用 Java ProcessBuilder

我的 Java 程序需要使用大矩阵中所有元素对的参数启动 agrep.exe,并获取两个字符串的匹配错误数。我写了一段代码,但运行速度很慢。我可以加快这部分代码的速度吗?或者,也许,你可以建议我一些 agrep 函数的 java 实现?

我可以为此目的使用 FREJ 库吗?例如,执行字符串匹配,得到匹配结果并乘以匹配区域的长度?

0 投票
1 回答
162 浏览

r - agrep 与 del、ins 参数一起工作

如何使用此代码匹配“abteam”和“ab”?

结果是character(0),虽然我指定了del=10ins=10。问题是什么?如何agrep工作?

0 投票
1 回答
1027 浏览

r - R中的agrep字符串匹配

我有两个产品名称列表。我的问题是“操作系统”与“系统”、“冷却系统”等匹配。但它只能与“Operating”、“OS”匹配。另一个例子是“Key Board”应该与“key”或“KB”匹配,而不是与“Mother Board”或只是“Board”匹配。

如何重视第一个词而不是第二个词?

agrep()在 R 中使用过。它也匹配“系统”和“冷却系统”作为第一个示例。如何避免这种匹配?

是否有任何功能/方法可以将“键盘”与“KB”和“操作系统”与“OS”匹配?

提前致谢。

0 投票
1 回答
118 浏览

r - 在R中保存具有不同长度的结果的元素

我想使用 agrep 函数提取相似的文本字符串并将它们保存在列表或向量中,但结果的长度不同(即使替换的长度可能为零),所以我得到一个错误。

如何定义列表或向量以保存结果,即使它们的长度不同?

这是一个可重现的示例:

0 投票
1 回答
1382 浏览

r - R:带有矢量模式的 agrep

我有一个模式向量,需要agrep在它们上使用。问题是agrep似乎一次只采用一种模式。

结果:

for在长模式上很慢,因此尝试以矢量化形式进行:

可能是lapply等功能可以提供帮助吗?谢谢!!

0 投票
0 回答
271 浏览

r - R:使用 agrep 进行慢速模糊匹配

我有一个模式向量和一个大的潜在匹配候选向量。对于xagrep用来获取y. 问题是代码非常慢 - 每个元素大约需要 2 秒x

有没有办法加快速度?x在这个例子中只有 6 个元素,但在实际项目x中长度为 41k。y这里大约有 103k 个元素,接近现实生活。

如果您需要查看示例输出,请替换3300y1

提前致谢!

定时

中仅重复 1 次的示例输出y

0 投票
2 回答
295 浏览

r - R:agrep 结果量词

是否有量化功能结果的内置方法agrep?例如在

tesr距离 仅 1 个字符排列test,而teqr为 2,toar为 3,因此未找到。显然,tesr比 具有更高的“概率” teqr。如何以排列数或百分比检索它?谢谢!

编辑:很抱歉没有把这个问题放在首位。我已经在运行一个两步程序:agrep获取我的列表,然后adist获取 N 个排列。adist速度较慢,运行时间是我数据集中的一个重要因素