问题标签 [dedupeplugin]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

10 问题

0 投票

1 回答

790 浏览

javascript - 深度嵌套节点模块中的应用程序中的重复库

我有一个应用程序，我可以在其中添加模块作为 node_modules。现在，这些模块和应用程序使用库 XYZ 作为节点模块。此外，这些模块还有其他节点模块，它们有自己的库 XYZ 作为节点模块。

所以，这大致是我的应用程序结构的样子

我使用 gulp 和 webpack，我正在尝试如何对库 XYZ进行重复数据删除。我想构建一个任务，该任务将遍历节点模块的嵌套树并构建出 XYZ 库的 1 个通用版本。我怎样才能做到这一点？

我尝试使用 deDupePlugin，这是我添加到我的 gulp 默认任务中的所有内容，但它没有工作。我错过了什么吗？

或者，还有其他方法可以实现吗？任何帮助将不胜感激

2015-10-28T18:03:42.083

0 投票

2 回答

40 浏览

mysql - SQL：尝试对数据进行排序以显示某些月份但失败

我正在做家庭作业，直到我到了这一点，一切都很好。我的教授希望我只提取三月、四月和五月的日期，而不使用 BETWEEN 运算符。

注意：我没有收到任何错误。我正在使用 EDUPE，它运行 MySQL，但有一些小的差异，有些东西根本不起作用。

问题是，有没有办法让我的代码正常运行？还是我走错了方向？

mysql sql between dedupeplugin

2016-03-23T00:33:14.490

0 投票

1 回答

11588 浏览

python - Python中的重复数据删除

在浏览 Python 中用于记录重复数据删除的 Dedupe 库的示例时，我发现它在输出文件中创建了一个Cluster Id列，根据文档表明哪些记录相互引用。虽然我无法找出集群 ID之间的任何关系以及这如何帮助查找重复记录。如果有人对此有所了解，请向我解释一下。这是重复数据删除的代码。

提前致谢

python duplicates python-dedupe dedupeplugin

2016-05-18T05:43:50.510

0 投票

0 回答

360 浏览

reactjs - 使用与 Webpack 捆绑的 React 组件会导致子模块重复

我们有 4 个与 Webpack（版本 1）捆绑的 React 组件：A、B、C 和 D。依赖关系树如下所示：

一个
- 乙
  - D
- C
  - D

我们希望每个组件都是可重用的，所以我们使用 webpack 来生成一个 UMD 模块。为每个组件生成的 bundle 位于中./dist/index.js，每个组件的package.json将这个脚本设置为库的入口点：

这是组件 A 的 webpack 配置文件：

B、C 和 D 组件的 webpack 配置文件的其余部分相同，但更改了要导出的库的名称output.library，因此对于组件 B

对于组件 C

对于组件 D

除了 A 的捆绑包大小外，一切正常。捆绑包太重，因为 D 在 A's 内部重复./dist/index.js。

我们尝试使用 Dedupe 插件无济于事。似乎 webpack 无法在已经捆绑的 dist B 和 C 文件中“看到”以从 D 中提取公共代码。 webpack 不能检测到它们自己生成的两个捆绑包之间的重复项吗？

我们还尝试更改 package.json 文件，以便主条目是非转译版本“main”：“./src/index.js”。这允许 webpack 检测 D 重复，但这种解决方案不适合，因为我们的组件有未转译的 ES6 入口点。

有任何想法吗？

reactjs webpack ecmascript-6 duplicates dedupeplugin

2017-02-15T12:07:09.427

0 投票

1 回答

2069 浏览

webpack - Webpack 重复数据删除 webpack 包

webpack 会删除已经与 webpack 捆绑的包吗？

例如， | Webpack bundle 1 | |------------------| | react@15.5 | | jquery@3.0 |

| Webpack app bundle | |--------------------| | react@15.5 | | jquery@3.1 | | Webpack bundle 1 |

Webpack 应用程序包会包含 2 个 react@15.5 副本吗？Webpack 应用程序包会包含 2 个 jquery 副本吗？

webpack dedupeplugin

2017-05-15T13:38:25.823

0 投票

1 回答

159 浏览

python-dedupe - 集群组件

集群时，我收到以下警告

这是什么意思？

我的原始阈值规范为 0.191，如下所示

python-dedupe dedupeplugin

2018-04-06T15:15:27.960

0 投票

0 回答

63 浏览

arrays - SAS 阵列重复数据删除

我对下面的 SAS 代码有疑问。我是数组的新手，下面的代码到底在做什么。我的理解是下面有两个索引。我相信这是对两个索引的 SAS 数据集进行重复数据删除。我不太确定。谢谢你的帮助！

arrays multidimensional-array sas dedupeplugin

user9016406

2018-04-09T18:35:14.550

0 投票

1 回答

822 浏览

python - 针对现有数据集删除一个新行

我正在使用重复数据删除 python 库。

任何代码示例都可以，例如 this。

假设我有一个训练有素deduper并使用它成功地对数据集进行重复数据删除。

现在我向数据集添加一个新行。

我想检查这个新行是否重复。

有没有办法在重复数据删除中做到这一点（无需重新分类整个数据集）？

更新：我已经尝试过@libreneitor 的建议，但我只是得到No records have been blocked together. Is the data you are trying to match like the data you trained on?这是我的代码（csv 文件）：

python python-dedupe dedupeplugin

2019-06-17T19:51:18.810

0 投票

0 回答

355 浏览

python - AttributeError：“Dedupe”对象没有属性“样本”

我正在从 dedupe-examples运行csv_example.py 。

我收到如下错误消息

任何帮助，将不胜感激！

python csv python-dedupe dedupeplugin

2020-05-29T20:23:24.777

0 投票

0 回答

138 浏览

duplicates - 为什么 Dedupe.io 中的记录链接为匹配的记录提供不同的集群 ID？

嗨，我有以下两个文件，我想在这两个文件之间找到匹配项。Test1.csv 中的每条记录最多可以匹配 Test2.csv 中的一条记录，但 Test1.csv 中的多条记录可以匹配 Test2.csv 中的同一条记录。我匹配名称和 domainWithExtension 列。

这是代码：

这有效并给出以下结果：

“Boxaround”的记录在 Test1.csv 中出现两次。因此，我希望这两个记录都与 Test2.csv 中的“Boxaround”记录匹配，并且输出中应该具有相同的集群 ID，但是输出中的集群 ID 4 有两条记录，另一条的集群 ID 为 0，用于“环绕”。我希望所有三个“Boxaround”记录都具有相同的集群 ID 4。我怎样才能做到这一点？请帮忙。

duplicates record-linkage python-dedupe dedupeplugin

2021-03-13T19:40:07.763

1 2 3 4 5 6 7 8 9 10

问题标签 [dedupeplugin]

Reference