问题标签 [duke]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Duke 快速重复数据删除:java.lang.UnsupportedOperationException:还不支持操作?
我正在尝试使用Duke Fast Deduplication Engine在我工作的公司的数据库中搜索一些重复记录。
我像这样从命令行运行它:
但我收到一个错误:
我的配置文件如下所示:
它并没有真正告诉我什么是不受支持的......我只是在尝试,配置还没有什么严重的。
java - 杜克重复数据删除引擎:链接记录不起作用?
我正在尝试使用 Duke 将记录从一个数据库匹配到另一个数据库。一个分贝有歌曲标题+作者。我正在尝试匹配另一个数据库以查找重复项和相应的记录。
我已经让杜克跑了,我可以看到一些记录得到匹配。但是无论我做什么,找到的正确链接总是= 0%,我就是无法访问链接文件。
这是我目前所做的:
输出:
- 总记录:5000
- 总匹配数:8284
- 不匹配总数:1587
- 找到正确的链接:0 / 0 (0.0%)
- 发现错误链接:0 / 0 (0.0%)
- 发现未知链接:8284
- 链接百分比正确 0.0%,错误 0.0%,未知 100.0%
- 精度 0.0%,召回率 NaN%,f 数 0.0
在 Spring STS 上运行:程序参数 =--progress --verbose --testfile=linked.txt --testdebug --showmatches duke.xml
它没有写入linked.txt 或找到任何正确的链接。不知道我在这里做错了什么。任何帮助都是极好的。
java - 杜克重复数据删除引擎:完全相同的记录不匹配
我正在尝试使用 Duke 将记录从一个 csv 匹配到另一个。第一个 csv 和第二个都有ID,Model,Price,CompanyName,Review,Url
列。我正在尝试匹配另一个 csv 以查找重复记录。
这是一个例子personalCare.xml
:
上面的代码工作正常,但它与确切的记录示例不匹配
这在两个 csv 文件中。我还想知道.xml
文件中给出的低属性值和高属性值的工作,如何确定列值的低值和高值。
java - Duke - org.apache.lucene.analysis.standard.StandardAnalyzer
https://github.com/larsga/Duke - 我正在使用 Duke - 进行重复数据删除。
我已经设置了 Duke(jar 文件 - 在类路径中添加了 Duke jar 和 lucene jar)..
github 中的示例示例 - https://github.com/larsga/Duke/wiki/SemanticDogfood
然而,同一个 github 中的另一个示例有效 - https://github.com/larsga/Duke/wiki/LinkingCountries
任何人都可以帮忙,..提前谢谢..
java - 杜克重复数据删除引擎:找不到确切的记录
我正在尝试为 Duke 创建一个配置和处理器,以在记录列表中找到完全匹配的内容。我创建了一个基于 ExactMatchComparator 的处理器,但该函数不返回完全匹配。这是处理器、配置和侦听器的设置:
这是我要测试的功能:
我正在使用 API,并且我已经阅读了此处提到的关于 SO 的问题,但这些问题是指 XML,而我正在使用 Java 进行测试。
getMatches 不应该为空吗?如何获得找到的重复列表或相反的列表(唯一记录列表,没有重复)?谢谢
xml - Duke 记录链接配置 XML
我有这个记录链接的问题:我有这两个 csv 文件和完美的映射,我使用过这个配置,但杜克总是给我 0 个链接。也许我选择了错误的阈值?有人可以帮助我吗?
java - 杜克对重复记录采取行动
我创建了一个使用DUKE查找重复记录的应用程序 代码:
它现在工作正常,可能用例是查找重复记录并删除它们。PrintMatchListener 只能打印记录。所以我有两个问题:
- 如何对重复记录执行操作?
- 重复的逻辑是说记录'A'与'B'相似,它也说'B'与'A'相似。我只需要一种方式关系,以便我可以删除这些记录。任何人都可以提出任何策略。
elasticsearch - 寻找支持实体重复数据删除的库
我将从事一些项目来处理实体重复数据删除。可能包含重复实体的数据集(一个或多个)。在实时中,实体可以以不同的形式表示姓名、地址、国家、电子邮件、社交媒体 ID。我的目标是根据不同实体信息的不同权重确定这些可能是重复的。我正在尝试寻找一个开源的库,最好用 Java 编写。
由于我需要处理数以百万计的数据,我需要关注扩展和性能。此外,性能不应该是 n^2 的数量级。在以下发现中,一些使用 Lucene 的基于索引的搜索,一些使用数据分组。
请倒建议哪个更好?
以下是我迄今为止的发现:
杜克 (Java/Lucene)
点评:使用遗传算法,很灵活。自 2016 年以来,一直有任何更新。
YannBrrd/elasticsearch-entity-resolution(杜克的扩展)
评论:自 2017 年以来,有任何更新。另外,需要检查是否兼容最新的ES和Lucene
重复数据删除/重复数据删除 (Python)
评论:使用数据分组方法。但它是用 Python 编写的。
JedAI 工具包 (Java)
评论:使用数据分组方法。
Zentity(弹性搜索插件)
评论:这是一个很好的。需要检查是否支持去重。到目前为止,在文档中,它谈到了实体身份解析。
Python 记录链接工具包文档
评论:它是在 Python 中的。
bakdata/重复数据删除 (Java)
评论:没有关于如何使用的明确文档
我想知道其他人是否还有其他人。也请说说上面的优缺点。
java - 将 dukes 版本升级到 1.6.19.raptorio 时出现 ClassNotFoundException
我们正在尝试将 dukes 版本从 1.5.4 更新到 1.6.19,并且我们得到以下日志