问题标签 [dedupeplugin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
790 浏览

javascript - 深度嵌套节点模块中的应用程序中的重复库

我有一个应用程序,我可以在其中添加模块作为 node_modules。现在,这些模块和应用程序使用库 XYZ 作为节点模块。此外,这些模块还有其他节点模块,它们有自己的库 XYZ 作为节点模块。

所以,这大致是我的应用程序结构的样子 在此处输入图像描述

我使用 gulp 和 webpack,我正在尝试如何对库 XYZ进行重复数据删除。我想构建一个任务,该任务将遍历节点模块的嵌套树并构建出 XYZ 库的 1 个通用版本。我怎样才能做到这一点?

我尝试使用 deDupePlugin,这是我添加到我的 gulp 默认任务中的所有内容,但它没有工作。我错过了什么吗?

或者,还有其他方法可以实现吗?任何帮助将不胜感激

0 投票
2 回答
40 浏览

mysql - SQL:尝试对数据进行排序以显示某些月份但失败

我正在做家庭作业,直到我到了这一点,一切都很好。我的教授希望我只提取三月、四月和五月的日期,而不使用 BETWEEN 运算符。

注意:我没有收到任何错误。我正在使用 EDUPE,它运行 MySQL,但有一些小的差异,有些东西根本不起作用。

问题是,有没有办法让我的代码正常运行?还是我走错了方向?

0 投票
1 回答
11588 浏览

python - Python中的重复数据删除

在浏览 Python 中用于记录重复数据删除的 Dedupe 库的示例时,我发现它在输出文件中创建了一个Cluster Id列,根据文档表明哪些记录相互引用。虽然我无法找出集群 ID之间的任何关系以及这如何帮助查找重复记录。如果有人对此有所了解,请向我解释一下。这是重复数据删除的代码。

提前致谢

0 投票
0 回答
360 浏览

reactjs - 使用与 Webpack 捆绑的 React 组件会导致子模块重复

我们有 4 个与 Webpack(版本 1)捆绑的 React 组件:A、B、C 和 D。依赖关系树如下所示:

  • 一个
      • D
    • C
      • D

我们希望每个组件都是可重用的,所以我们使用 webpack 来生成一个 UMD 模块。为每个组件生成的 bundle 位于 中./dist/index.js,每个组件的package.json将这个脚本设置为库的入口点:

这是组件 A 的 webpack 配置文件:

B、C 和 D 组件的 webpack 配置文件的其余部分相同,但更改了要导出的库的名称output.library,因此对于组件 B

对于组件 C

对于组件 D

除了 A 的捆绑包大小外,一切正常。捆绑包太重,因为 D 在 A's 内部重复./dist/index.js

我们尝试使用 Dedupe 插件无济于事。似乎 webpack 无法在已经捆绑的 dist B 和 C 文件中“看到”以从 D 中提取公共代码。 webpack 不能检测到它们自己生成的两个捆绑包之间的重复项吗?

我们还尝试更改 package.json 文件,以便主条目是非转译版本“main”:“./src/index.js”。这允许 webpack 检测 D 重复,但这种解决方案不适合,因为我们的组件有未转译的 ES6 入口点。

有任何想法吗?

0 投票
1 回答
2069 浏览

webpack - Webpack 重复数据删除 webpack 包

webpack 会删除已经与 webpack 捆绑的包吗?

例如, | Webpack bundle 1 | |------------------| | react@15.5 | | jquery@3.0 |

| Webpack app bundle | |--------------------| | react@15.5 | | jquery@3.1 | | Webpack bundle 1 |

Webpack 应用程序包会包含 2 个 react@15.5 副本吗?Webpack 应用程序包会包含 2 个 jquery 副本吗?

0 投票
1 回答
159 浏览

python-dedupe - 集群组件

集群时,我收到以下警告

这是什么意思?

我的原始阈值规范为 0.191,如下所示

0 投票
0 回答
63 浏览

arrays - SAS 阵列重复数据删除

我对下面的 SAS 代码有疑问。我是数组的新手,下面的代码到底在做什么。我的理解是下面有两个索引。我相信这是对两个索引的 SAS 数据集进行重复数据删除。我不太确定。谢谢你的帮助!

0 投票
1 回答
822 浏览

python - 针对现有数据集删除一个新行

我正在使用重复数据删除 python 库

任何代码示例都可以,例如 this

假设我有一个训练有素deduper并使用它成功地对数据集进行重复数据删除。

现在我向数据集添加一个新行。

我想检查这个新行是否重复。

有没有办法在重复数据删除中做到这一点(无需重新分类整个数据集)?

更新:我已经尝试过@libreneitor 的建议,但我只是得到No records have been blocked together. Is the data you are trying to match like the data you trained on?这是我的代码(csv 文件):

0 投票
0 回答
355 浏览

python - AttributeError:“Dedupe”对象没有属性“样本”

我正在从 dedupe-examples运行csv_example.py 。

我收到如下错误消息

任何帮助,将不胜感激!

0 投票
0 回答
138 浏览

duplicates - 为什么 Dedupe.io 中的记录链接为匹配的记录提供不同的集群 ID?

嗨,我有以下两个文件,我想在这两个文件之间找到匹配项。Test1.csv 中的每条记录最多可以匹配 Test2.csv 中的一条记录,但 Test1.csv 中的多条记录可以匹配 Test2.csv 中的同一条记录。我匹配名称和 domainWithExtension 列。

测试1.csv

测试2.csv

这是代码:

这有效并给出以下结果:

输出

“Boxaround”的记录在 Test1.csv 中出现两次。因此,我希望这两个记录都与 Test2.csv 中的“Boxaround”记录匹配,并且输出中应该具有相同的集群 ID,但是输出中的集群 ID 4 有两条记录,另一条的集群 ID 为 0,用于“环绕”。我希望所有三个“Boxaround”记录都具有相同的集群 ID 4。我怎样才能做到这一点?请帮忙。