问题标签 [name-matching]
linux - Linux 或 unix 查找:匹配部分名称的快捷方式
我要输入的内容(例如。助记符 = “all”):
find . -iname "blah"
rgrep instead of grep -r
尽管像 grep 示例一样,它只保存了几个字符,但它们是移位字符,不容易输入,而且它可能是一种常用的搜索。
r - 将部分文件名与完整文件名匹配
1001_2017_01_02#19_30_24.csv 1002_2018_03_01#20_30_54.csv...
格式本质上是:id _year_month_day#hour_min_sec.csv。
我已经从文件名中删除了 ID 和日期,以便使用 Neardate 函数进行排序。最终我有一个包含前缀 1001_2017_01_02 而不是完整文件名的数据框。本质上,我想将最终数据帧中的部分文件名与完整文件名匹配,然后将匹配的文件复制到新路径。
python - python中的名称匹配
它给出了接近工具结果的结果。但是,异常值很少 - 如下所示。
python - 不同长度的两个数据帧的列之间的余弦相似度?
我在 df1 中有文本列,在 df2 中有文本列。df2 的长度与 df1 的长度不同。我想计算 df1[text] 中每个条目与 df2[text] 中每个条目的余弦相似度,并为每个匹配项打分。
当我尝试使用 tf-idf 方法匹配这两列的相似性时,我遇到了问题(得到关键错误),因为这些列的长度不同。有没有其他方法可以解决这个问题......任何帮助都会非常感激。我进行了很多搜索,发现几乎在所有情况下,人们都将第一个文档与同一语料库中的其余文档进行比较。这就像将 corpus 1 的每个文档与 corpus2 上的每个文档进行比较。
python - 名称匹配。运行 sparse_dot_topn 函数给我警告:内核重新启动?
我正在尝试通过 awesome_cossim_top 使用余弦相似度将我们的公司名称与政府的公司名称数据库进行匹配。因此,我将我的 ngram tf-idf 转换为 CSR 矩阵并通过函数运行它。它不会在每个 IDE(Colab、Spyder、PyCharm 和 Jupyter)上运行并重新启动我的内核。它根本行不通。我想明白为什么?
r - Correlate vectors whose colnames match the values of two variables in each row in r dataframe
I have this dataframe in r (link) (Example rows and columns below)
I would like to add a new variable, df$cor, in which the value in each row is the result of a correlation. The correlation should be between two vectors: (1) the column whose colname corresponds to the value of the variable df$FocalID in that row, and (2) the column whose colname corresponds to the value of the variable df$Mother in that row.
If the vector correspondent to the column that matches the mother's name is absent (either because the mother is not known (NA in df$Mother) or absent from colnames), the correlation should produce an NA.
I have tried the following code:
However, the result doesn't seem right. Any idea?
r - 可能是在 R 3.6.3 中使用三点参数的错误
在 R 3.6.3 中用于传递函数参数是一个错误。具体来说,命名参数将尝试部分匹配 中的参数...
R 3.6.3 中的输出将是:
dataframe - fuzz.token_set_ratio 的 Python 替代函数以减少执行时间
我正在处理名称匹配问题,其中我有需要与保存在 csv 文件中的 250 万条现有客户记录进行比较的客户名称。下面是我尝试过的代码,单名匹配需要 5-12 分钟。由于这将作为 API 与 RPA 流程集成,建议我在一两分钟内以任何其他方式实现相同的目标。
在这里,df1 是给定名称的数据框,cust_2 是从 csv 文件中读取的 DB 提取。印刷品给出的时间为,
t23 - df.apply(get_ratio) - 5.0 分 42.0 秒