问题标签 [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
9306 浏览

php - 用 PHP Levenshtein 比较 5000 个字符串

我在一个数组中有 5000 个,有时甚至更多的街道地址字符串。我想将它们与 levenshtein 进行比较以找到相似的匹配项。如果不遍历所有 5000 并将它们与其他所有 4999 直接比较,我怎么能做到这一点?

编辑:如果有人有建议,我也对替代方法感兴趣。总体目标是根据用户提交的街道地址找到相似的条目(并消除重复项)。

0 投票
5 回答
1468 浏览

java - 项目之间的 CPD / PMD?

希望我重新表述这个问题,使其更简单易懂。

我有大约 30 个组件(内部)进入一个 Web 应用程序。这意味着 30 个不同的项目都有自己独立的 POM。我在我的 POM 中使用了相当多的继承,因此它们继承的其中一件事是 PMD/CPD 配置以防止代码重复。

即使我运行了 CPD/PMD,它也只能检测到同一项目中的重复代码。我希望它能够在我的任何项目中检测到项目之间是否存在可以重构的共享代码。此外,我一直在寻找可以(使用相同的概念/模式)验证其他开源依赖项之间没有共享代码的东西。

它将是 CPD/PMD,但它会在源 jar 上运行。如果您扫描所有项目及其依赖项以查找重复项,此任务将消耗大量内存。现在,我只想将其应用于内部项目。如果它有效,那么扩展它会相对容易/直接。

沃尔特

0 投票
3 回答
5869 浏览

java - tf idf 相似度

我正在使用 TF/IDF 来计算相似度。例如,如果我有以下两个文档。

这是正常的,它的相似性是 50%,但是当我计算它的 TF/IDF 时。如下

Doc A 的 Tf 值

Doc B 的 Tf 值

文档 A 的 IDF 值

Doc B 的 IDF 值

文档 A 的 TF/IDF 值

Doc B 的 TF/IDF 值

现在看起来有 -0.20275 相似度。是吗?还是我错过了什么?或者还有什么下一步?请告诉我,这样我也可以计算出来。

我使用了维基百科提到的 tf/idf 公式

0 投票
5 回答
1308 浏览

java - 爪哇:等分线?(从对象集合中删除重复项)

我有一堆类的对象Puzzle。我已经覆盖了equals()and hashCode()。当需要向用户展示解决方案时,我想过滤掉所有“相似”的谜题(按照我定义的标准),所以用户只能看到每个谜题中的一个。

相似性是可传递的。

例子:

在这种情况下,只有 A 或 D 和 B 或 C 会呈现给用户——而不是两个类似的拼图。两个类似的谜题同样有效。重要的是它们不会同时显示给用户。

为此,我想使用一个禁止重复的 ADT。但是,我不想更改equals()andhashCode()方法来返回关于相似性的值。Equalator在这种情况下,Comparator我可以使用一些吗?还是我应该这样做的另一种方式?

我正在学习的课程是一个维护字母网格的拼图。(如拼字游戏。)如果拼图包含相同的单词,但方向不同,则认为它是相似的。所以下面要解惑:

将类似于:

0 投票
3 回答
16147 浏览

java - 余弦相似度

我计算了两个文档的 tf/idf 值。以下是 tf/idf 值:

文件如下:

如何使用这些值来计算余弦相似度?

我知道我应该计算点积,然后找到距离并将点积除以它。如何使用我的值计算这个?

还有一个问题:两个文档的字数相同是否重要?

0 投票
5 回答
3636 浏览

java - java中的PHP相似文本()

你知道Java中PHPsimilar_text函数的任何严格等效的实现吗?

0 投票
5 回答
3077 浏览

metrics - 计算一组集合之间的相似度

假设有4组:

s1={1,2,3,4};
s2={2,3,4};
s3={2,3,4,5};
s4={1,3,4,5};

有没有标准的度量来表示这组4组的相似度?

感谢您对 Jaccard 方法的建议。然而,它似乎是成对的。如何计算整组集合的相似度?

0 投票
4 回答
6613 浏览

php - 用php+gd的图片对比

将两个图像与 php 和Graphic Draw (GD) Library进行比较的最佳方法是什么?

这是场景:

替代文字

我有一张图片,我想找出给定集合中的哪张图片与它最相似。最相似的图像实际上是同一幅图像,不是像素完美匹配而是同一幅图像。为了便于理解我的意思,我用示例中的第一名戏剧化了两张图片之间的差异。

尽管它没有带来一致的结果,但我的方法是使用imagecopyresampled函数将图像减小到 1px,并查看图像之间的 RGB 值有多接近。

从可能匹配的红色、绿色和蓝色十进制等效值中减去每个红色、绿色和蓝色十进制等效值的值的总和给了我一个相异指数,即使它没有按预期工作,因为并不总是大多数 RGB 相似图像是目标图像,我可以用来从可用目标中选择图像。

这是将 4 个图像与目标图像(在本例中为苹果徽标)进行比较时的输出示例,它与其中一个图像匹配但不完全相同:

原图:

红色:222 绿色:226 蓝色:232

对比:

http://a1.twimg.com/profile_images/571171388/logo-twitter_normal.png 红色:183 绿色:212 蓝色:212,相似指数为 56

红色:117 绿色:028 蓝色:028 和相异指数 530

红色:218 绿色:221 蓝色:221 和相异指数13 匹配正确。

红色:061 绿色:063 蓝色:063 和相异指数 491

甚至可能比我已经得到的结果更好,而且我在这里浪费时间,但由于似乎有很多经验丰富的 php 程序员,我想你可以为我指出如何改进的正确方向这。

我对 php 的iMagickGmagickCairo等其他图像库持开放态度,但我更愿意避免使用 php 以外的其他语言。

提前致谢。

0 投票
3 回答
1926 浏览

algorithm - 多组二维坐标的适当相似性度量

我有一组 2D 坐标集(在每组 100K-500K 点的范围内),我正在寻找最有效的方法来测量一组与另一组的相似性。我知道通常情况:余弦、Jaccard/Tanimoto 等。但是我希望对任何快速/有效的测量相似度的方法提出一些建议,尤其是那些可以通过相似度聚类的方法。

编辑 1:图像显示了我需要做的事情。我需要通过它们的形状/方向等来聚集所有的红色、蓝色和绿色。

替代文字 http://img402.imageshack.us/img402/8121/curves.png

0 投票
1 回答
681 浏览

arrays - 比较“相似性”的 int 数组 - 比加权平均值更准确?

假设有许多长度为 12 的数组,包含大约 ±100 范围内的有符号整数,我如何以比这些数组更准确的方式比较这些数组的“签名”或“谐波内容”一个简单的加权平均?

我是否必须研究神经网络(如果这甚至合适,我不知道)还是有更直接的方法?

编辑:

在图表上,想象 x 轴上的索引和 y 轴上的值。如果标准化后图形的形状相似,则两个数组将非常相似。

我发现很难为这个问题找到合适的词。