问题标签 [duke]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1719 浏览

java - Duke 快速重复数据删除:java.lang.UnsupportedOperationException:还不支持操作?

我正在尝试使用Duke Fast Deduplication Engine在我工作的公司的数据库中搜索一些重复记录。

我像这样从命令行运行它:

但我收到一个错误:

我的配置文件如下所示:

它并没有真正告诉我什么是不受支持的......我只是在尝试,配置还没有什么严重的。

0 投票
1 回答
1050 浏览

java - 杜克重复数据删除引擎:链接记录不起作用?

我正在尝试使用 Duke 将记录从一个数据库匹配到另一个数据库。一个分贝有歌曲标题+作者。我正在尝试匹配另一个数据库以查找重复项和相应的记录。

我已经让杜克跑了,我可以看到一些记录得到匹配。但是无论我做什么,找到的正确链接总是= 0%,我就是无法访问链接文件。

这是我目前所做的:

输出:

  • 总记录:5000
  • 总匹配数:8284
  • 不匹配总数:1587
  • 找到正确的链接:0 / 0 (0.0%)
  • 发现错误链接:0 / 0 (0.0%)
  • 发现未知链接:8284
  • 链接百分比正确 0.0%,错误 0.0%,未知 100.0%
  • 精度 0.0%,召回率 NaN%,f 数 0.0

在 Spring STS 上运行:程序参数 =--progress --verbose --testfile=linked.txt --testdebug --showmatches duke.xml

它没有写入linked.txt 或找到任何正确的链接。不知道我在这里做错了什么。任何帮助都是极好的。

0 投票
1 回答
1184 浏览

java - 杜克重复数据删除引擎:完全相同的记录不匹配

我正在尝试使用 Duke 将记录从一个 csv 匹配到另一个。第一个 csv 和第二个都有ID,Model,Price,CompanyName,Review,Url列。我正在尝试匹配另一个 csv 以查找重复记录。

这是一个例子personalCare.xml

上面的代码工作正常,但它与确切的记录示例不匹配

这在两个 csv 文件中。我还想知道.xml文件中给出的低属性值和高属性值的工作,如何确定列值的低值和高值。

0 投票
3 回答
660 浏览

java - Duke - org.apache.lucene.analysis.standard.StandardAnalyzer

https://github.com/larsga/Duke - 我正在使用 Duke - 进行重复数据删除。

我已经设置了 Duke(jar 文件 - 在类路径中添加了 Duke jar 和 lucene jar)..

github 中的示例示例 - https://github.com/larsga/Duke/wiki/SemanticDogfood

然而,同一个 github 中的另一个示例有效 - https://github.com/larsga/Duke/wiki/LinkingCountries

任何人都可以帮忙,..提前谢谢..

0 投票
0 回答
121 浏览

java - 杜克重复数据删除引擎:找不到确切的记录

我正在尝试为 Duke 创建一个配置和处理器,以在记录列表中找到完全匹配的内容。我创建了一个基于 ExactMatchComparator 的处理器,但该函数不返回完全匹配。这是处理器、配置和侦听器的设置:

这是我要测试的功能:

我正在使用 API,并且我已经阅读了此处提到的关于 SO 的问题,但这些问题是指 XML,而我正在使用 Java 进行测试。

getMatches 不应该为空吗?如何获得找到的重复列表或相反的列表(唯一记录列表,没有重复)?谢谢

0 投票
0 回答
72 浏览

xml - Duke 记录链接配置 XML

我有这个记录链接的问题:我有这两个 csv 文件和完美的映射,我使用过这个配置,但杜克总是给我 0 个链接。也许我选择了错误的阈值?有人可以帮助我吗?

https://www.dropbox.com/s/m80eub51ng7iz5o/help.zip?dl=0

0 投票
0 回答
25 浏览

java - 杜克对重复记录采取行动

我创建了一个使用DUKE查找重复记录的应用程序 代码:

它现在工作正常,可能用例是查找重复记录并删除它们。PrintMatchListener 只能打印记录。所以我有两个问题:

  • 如何对重复记录执行操作?
  • 重复的逻辑是说记录'A'与'B'相似,它也说'B'与'A'相似。我只需要一种方式关系,以便我可以删除这些记录。任何人都可以提出任何策略。
0 投票
0 回答
306 浏览

elasticsearch - 寻找支持实体重复数据删除的库

我将从事一些项目来处理实体重复数据删除。可能包含重复实体的数据集(一个或多个)。在实时中,实体可以以不同的形式表示姓名、地址、国家、电子邮件、社交媒体 ID。我的目标是根据不同实体信息的不同权重确定这些可能是重复的。我正在尝试寻找一个开源的库,最好用 Java 编写。

由于我需要处理数以百万计的数据,我需要关注扩展和性能。此外,性能不应该是 n^2 的数量级。在以下发现中,一些使用 Lucene 的基于索引的搜索,一些使用数据分组。

请倒建议哪个更好?

以下是我迄今为止的发现:

杜克 (Java/Lucene)

点评:使用遗传算法,很灵活。自 2016 年以来,一直有任何更新。

YannBrrd/elasticsearch-entity-resolution(杜克的扩展)

评论:自 2017 年以来,有任何更新。另外,需要检查是否兼容最新的ES和Lucene

重复数据删除/重复数据删除 (Python)

评论:使用数据分组方法。但它是用 Python 编写的。

JedAI 工具包 (Java)

评论:使用数据分组方法。

Zentity(弹性搜索插件)

评论:这是一个很好的。需要检查是否支持去重。到目前为止,在文档中,它谈到了实体身份解析。

Python 记录链接工具包文档

评论:它是在 Python 中的。

bakdata/重复数据删除 (Java)

评论:没有关于如何使用的明确文档

我想知道其他人是否还有其他人。也请说说上面的优缺点。

0 投票
0 回答
7 浏览

java - 将 dukes 版本升级到 1.6.19.raptorio 时出现 ClassNotFoundException

我们正在尝试将 dukes 版本从 1.5.4 更新到 1.6.19,并且我们得到以下日志