“duke”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

1719 浏览

java - Duke 快速重复数据删除：java.lang.UnsupportedOperationException：还不支持操作？

我正在尝试使用Duke Fast Deduplication Engine在我工作的公司的数据库中搜索一些重复记录。

我像这样从命令行运行它：

但我收到一个错误：

我的配置文件如下所示：

它并没有真正告诉我什么是不受支持的......我只是在尝试，配置还没有什么严重的。

2012-10-11T17:39:43.480

0 投票

1 回答

1050 浏览

java - 杜克重复数据删除引擎：链接记录不起作用？

我正在尝试使用 Duke 将记录从一个数据库匹配到另一个数据库。一个分贝有歌曲标题+作者。我正在尝试匹配另一个数据库以查找重复项和相应的记录。

我已经让杜克跑了，我可以看到一些记录得到匹配。但是无论我做什么，找到的正确链接总是= 0％，我就是无法访问链接文件。

这是我目前所做的：

输出：

总记录：5000
总匹配数：8284
不匹配总数：1587
找到正确的链接：0 / 0 (0.0%)
发现错误链接：0 / 0 (0.0%)
发现未知链接：8284
链接百分比正确 0.0%，错误 0.0%，未知 100.0%
精度 0.0%，召回率 NaN%，f 数 0.0

在 Spring STS 上运行：程序参数 =--progress --verbose --testfile=linked.txt --testdebug --showmatches duke.xml

它没有写入linked.txt 或找到任何正确的链接。不知道我在这里做错了什么。任何帮助都是极好的。

java xml fuzzy-logic record-linkage duke

2015-02-10T23:40:01.957

0 投票

1 回答

1184 浏览

java - 杜克重复数据删除引擎：完全相同的记录不匹配

我正在尝试使用 Duke 将记录从一个 csv 匹配到另一个。第一个 csv 和第二个都有ID,Model,Price,CompanyName,Review,Url列。我正在尝试匹配另一个 csv 以查找重复记录。

这是一个例子personalCare.xml：

上面的代码工作正常，但它与确切的记录示例不匹配

这在两个 csv 文件中。我还想知道.xml文件中给出的低属性值和高属性值的工作，如何确定列值的低值和高值。

java algorithm duplicates fuzzy-logic duke

2015-10-07T11:47:15.517

0 投票

3 回答

660 浏览

java - Duke - org.apache.lucene.analysis.standard.StandardAnalyzer

https://github.com/larsga/Duke - 我正在使用 Duke - 进行重复数据删除。

我已经设置了 Duke（jar 文件 - 在类路径中添加了 Duke jar 和 lucene jar）..

github 中的示例示例 - https://github.com/larsga/Duke/wiki/SemanticDogfood

然而，同一个 github 中的另一个示例有效 - https://github.com/larsga/Duke/wiki/LinkingCountries

任何人都可以帮忙，..提前谢谢..

java jar lucene standardanalyzer duke

2016-03-22T17:42:53.177

0 投票

0 回答

121 浏览

java - 杜克重复数据删除引擎：找不到确切的记录

我正在尝试为 Duke 创建一个配置和处理器，以在记录列表中找到完全匹配的内容。我创建了一个基于 ExactMatchComparator 的处理器，但该函数不返回完全匹配。这是处理器、配置和侦听器的设置：

这是我要测试的功能：

我正在使用 API，并且我已经阅读了此处提到的关于 SO 的问题，但这些问题是指 XML，而我正在使用 Java 进行测试。

getMatches 不应该为空吗？如何获得找到的重复列表或相反的列表（唯一记录列表，没有重复）？谢谢

java duplicates record-linkage duke

2016-10-27T08:33:58.923

0 投票

0 回答

72 浏览

xml - Duke 记录链接配置 XML

我有这个记录链接的问题：我有这两个 csv 文件和完美的映射，我使用过这个配置，但杜克总是给我 0 个链接。也许我选择了错误的阈值？有人可以帮助我吗？

https://www.dropbox.com/s/m80eub51ng7iz5o/help.zip?dl=0

xml record-linkage duke

2017-06-07T12:07:56.460

0 投票

0 回答

25 浏览

java - 杜克对重复记录采取行动

我创建了一个使用DUKE查找重复记录的应用程序代码：

它现在工作正常，可能用例是查找重复记录并删除它们。PrintMatchListener 只能打印记录。所以我有两个问题：

如何对重复记录执行操作？
重复的逻辑是说记录'A'与'B'相似，它也说'B'与'A'相似。我只需要一种方式关系，以便我可以删除这些记录。任何人都可以提出任何策略。

java duke

2018-09-18T10:37:20.893

0 投票

0 回答

306 浏览

elasticsearch - 寻找支持实体重复数据删除的库

我将从事一些项目来处理实体重复数据删除。可能包含重复实体的数据集（一个或多个）。在实时中，实体可以以不同的形式表示姓名、地址、国家、电子邮件、社交媒体 ID。我的目标是根据不同实体信息的不同权重确定这些可能是重复的。我正在尝试寻找一个开源的库，最好用 Java 编写。

由于我需要处理数以百万计的数据，我需要关注扩展和性能。此外，性能不应该是 n^2 的数量级。在以下发现中，一些使用 Lucene 的基于索引的搜索，一些使用数据分组。

请倒建议哪个更好？

以下是我迄今为止的发现：

杜克 (Java/Lucene)

点评：使用遗传算法，很灵活。自 2016 年以来，一直有任何更新。

YannBrrd/elasticsearch-entity-resolution（杜克的扩展）

评论：自 2017 年以来，有任何更新。另外，需要检查是否兼容最新的ES和Lucene

重复数据删除/重复数据删除 (Python)

评论：使用数据分组方法。但它是用 Python 编写的。

JedAI 工具包 (Java)

评论：使用数据分组方法。

Zentity（弹性搜索插件）

评论：这是一个很好的。需要检查是否支持去重。到目前为止，在文档中，它谈到了实体身份解析。

Python 记录链接工具包文档

评论：它是在 Python 中的。

bakdata/重复数据删除 (Java)

评论：没有关于如何使用的明确文档

我想知道其他人是否还有其他人。也请说说上面的优缺点。

elasticsearch lucene duplicates record-linkage duke

2019-09-06T05:31:35.413

0 投票

0 回答

7 浏览

java - 将 dukes 版本升级到 1.6.19.raptorio 时出现 ClassNotFoundException

我们正在尝试将 dukes 版本从 1.5.4 更新到 1.6.19，并且我们得到以下日志

java raptor duke

2021-08-25T21:05:32.203

问题标签 [duke]

Reference