问题标签 [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2775 浏览

php - 调整余弦相似度

我正在尝试在 PHP中编写调整后的余弦相似度。

我这样构建我的数据:

数据示例:

我想写一个函数来计算两个项目的调整余弦,比如

0 投票
3 回答
1618 浏览

java - 计算Lucene文档之间的相似度和质心

为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是用 tf-idf 加权构建我自己的向量空间模型,使用 TermFreqVectors 和整体词频来填充它。

我的问题是:这不是一种有效的方法,有没有更好的方法来做到这一点?

这感觉有点不清楚,所以任何关于如何改进我的问题的建议也值得赞赏。

0 投票
2 回答
2942 浏览

java - 从两个字符串中查找相似子字符串的方法

我正在使用这段 Java 代码来查找类似的字符串:

if( str1.indexof(str2) >= 0 || str2.indexof(str1) >= 0 ) .......

但是有了它str1 = "pizzabase"str2 = "namedpizzaowl"不起作用。

我如何找到常见的子字符串,即“pizza”?

0 投票
3 回答
1287 浏览

php - 如何根据其中一个值相似性对动态数组进行array_merge

再会,

我正在使用 cURL 和各种解析技术从各种网站检索信息。我编写了代码,因此如果需要,我可以添加其他我从中扫描信息的网站。

检索到的信息如下:(请注意,信息可能不准确,可能不反映真实价格/名称)

所需的输出必须是:

请注意,名称可能会有所不同,因此需要使用similar_text。此外,某些信息可能不会显示在所有网站上。我知道只能选择一个电视名称,然后我将使用最相关来源(website1.com)中的一个

这是我正在尝试使用的代码。

首先,上面的代码不起作用。一定有一个我无法指出的逻辑错误。此外,如果我将第三个网站添加到列表中,我不相信该代码将起作用。

有什么想法吗?从今天早上开始我就一直在做这件事。

编辑 2011-02-16:

我为这个问题添加了赏金。

0 投票
0 回答
1567 浏览

java - 音频相似度库

我正在尝试为学校项目寻找类似音频相似性库的东西。一些简单且有据可查的东西,最好用 python 或 java 编写,可以从音频文件中提取特征并基于这些估计任何形式的相似性。像这样的代码也可以,但我认为我没有能力自己做类似的事情。“情绪提取器”也可以满足我的需求。这是一个复杂的话题,但我希望有人可以帮助我。

0 投票
1 回答
501 浏览

iphone - 有效更新余弦相似度分数

我的 iPhone 应用程序正在使用具有以下架构的 SQLite 数据库:

  • items(id, name, ...) -> 此表包含 50 条记录
  • tags(id, name) -> 这个表包含 50 条记录
  • item_tags(id, item_id, tag_id, user_id)
  • 相似性(id,item1_id,item2_id,分数)

项目、标签、item_tags 和相似度表填充了预定义的记录,因此不同项目之间的相似度也已经离线计算(使用基于项目标签的余弦相似度算法)。

用户可以为项目添加额外的标签,并在以后删除他们的自定义标签。每当发生这种情况时,项目之间的相似性分数应该在本地更新,即无需联系服务器应用程序。

我现在的问题是:最有效的方法是什么?到目前为止,在 iPhone 应用程序启动时,我为所有项目和标签计算了一个术语文档矩阵(它反映了每个项目的标签频率),并在应用程序运行时将该矩阵保存在内存中。每当添加或删除标签时,我都会使用此矩阵来更新数据库中的相似性。然而,这是相当低效的。你有什么建议吗?

谢谢!

0 投票
2 回答
4708 浏览

algorithm - 计算绘制线之间的相似度

我需要一种算法来计算两条画线之间的相似程度。这些线是使用鼠标绘制的,并在使用单独的算法进行过滤和平滑之前存储为一组笛卡尔坐标。

例如,在下图中: 图表

线 A 和 B 明显相似,但 B 和 C 不相似。算法应该反映这一点。此外,由起点和终点指示的线的“方向”很重要。这样的算法是否已经存在?

0 投票
3 回答
2302 浏览

perl - 如何确定两个字符串是否大部分相等(在 perl 中)?

我有一个字符串,我想与一个字符串数组进行比较,并返回最匹配的数组元素。

我可以编写一个滑动相关器,计算每一步匹配字符的数量并返回最大相关性。但是有更好的方法吗?

例如:
control_string = drv_probability_1_max

列表:
burst_period_min/max
duty_cycle_min/max probablility_0_min/
max probblility_1_min/
max

理想情况下它返回“probblility_1_min/max”

0 投票
5 回答
7097 浏览

pdf - 查找重复的 PDF

我正在寻找一个可以帮助我找到重复 PDF 的实用程序。问题:我有 1000 多个 PDF 文件。有些是重复的。由于不同的文件名和文件大小的微小差异,它们不容易检测。是否有实用程序/算法/库可以帮助我找到重复项或向我显示非常相似(或差异程度)的文件?

0 投票
2 回答
1638 浏览

binary - 测量两个二进制文件之间的相似性?

我有两个 G729 编码文件,我采用了它们的 pcm 版本。我想测量这两个文件之间的相似性。这些文件是二进制文件,所以如何测量二进制文件之间的相似性,我用 C 语言编写了一个代码,该代码从第一个文件中获取模式并在第二个文件中搜索相似的文件,但我想要一个相似性度量...... . 我在文献中搜索了很多,我找到了 jaccard 和其他人,但仍然无法确定其中哪些符合我的情况。提前感谢您的帮助..