问题标签 [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
814 浏览

mysql - 使用空间 MySQL 功能加快文本比较(特征向量)

我有一个函数,它接受两个包含两个文本的标记/单词的数组,并给出显示两个文本之间关系的余弦相似度值。

该函数接受一个数组 $tokensA (0=>house, 1=>bike, 2=>man) 和一个数组 $tokensB (0=>bike, 1=>house, 2=>car) 并计算相似度,即作为浮点值返回。

如果我想比较 75 个文本,我需要进行 5,625 次单次比较才能将所有文本相互比较。

是否可以使用 MySQL 的空间列来减少比较次数?

我不想谈论我的功能或比较文本的方法。只是减少比较的次数。

MySQL的空间列

  • 您使用以下命令创建空间列:CREATE TABLE abc (clmnName TYPE)
  • 此处列出了可能的类型
  • 是我稍后选择数据的方式[例如 MultiPointFromText() 或 AsText()]
  • 您插入这样的值: INSERT INTO clmnName VALUES (GeomFromText('POINT(1 1)'))

但是你如何用它来解决我的问题?

PS:我正在寻找减少与此问题中算法的比较次数的方法。Vinko Vrsalovic 告诉我,我应该针对空间特征提出另一个问题。

0 投票
3 回答
2631 浏览

copy-paste - 显示文件相似性的提示

在一个项目中,我发现了一些“闻起来”的css文件,就像其中有复制粘贴的规则一样。

我想知道您检测文件中复制粘贴内容的策略是什么。

出于好奇,我想听听您显示文件相似性的提示和技巧!

0 投票
1 回答
845 浏览

document - 用于比较 LSA、TFIDF、余弦度量和语言模型的软件包

我正在寻找一个包(实际上是任何语言),我可以在 50 个文档的语料库上使用它来执行各种指标的文档间相似性测试,例如 tfidf、okapi、语言模型、lsa 等。

因此,我想要一个文档相似度矩阵,即 doc1 与 doc2 相似 x%,等等……这是出于研究目的,而不是用于生产。我特别想要文档相似度矩阵,因为我想将其与人类评级相关联。

先感谢您!

0 投票
5 回答
442 浏览

algorithm - 如何从很多页面中获取相似的文本?

从很多文本中获取x个最相似的文本到一个文本。

也许将页面更改为文本会更好。

您不应该将文本与每个文本进行比较,因为它太慢了。

0 投票
3 回答
3835 浏览

ruby - 检测不同分辨率下的图像相等性

我正在尝试构建一个脚本来浏览我的原始高分辨率照片,并替换我在拥有专业帐户之前上传到 Flickr 的旧的低分辨率照片。

对于他们中的许多人,我可以只使用 Exif 信息,例如确定匹配的日期。但有些真的很旧,或者原始文件没有 Exif 信息,或者它被我当时使用的任何愚蠢的调整大小软件破坏了。

因此,由于无法依赖元数据,我不得不求助于内容本身。问题是原件的分辨率与 Flickr 上的不同(这是这项工作的重点)。那么有没有办法让我将它们与某种模糊相似性度量进行比较,从而允许我设置是否需要人工输入的阈值?

我想知道一个图像是另一个图像的调整大小版本可以产生比一般相似性更好的结果。任何语言的解决方案都可以,但 Ruby 会是一个加分项 :)

0 投票
2 回答
352 浏览

c++ - 加快图像中的自相似性

我正在编写一个生成图像的程序。我想要的一种测量是图像中“自相似”的数量。我编写了以下代码,为图片中的每个 sizeWindow * sizeWindow 窗口查找 countBest-th 最佳匹配:

好消息是该算法做了我想要的:它将返回一个从 0.0 到 1.0 的值,关于图片的“自相似”程度。

坏消息——我相信你已经注意到了——算法非常慢。跑步需要(k_maxX - sizeWindow) * (k_maxY - sizeWindow) * (k_maxX - sizeWindow) * (k_maxY - sizeWindow) * sizeWindow * sizeWindow几步。

变量的一些典型值:

现在,我并不担心 pvecount 占用的内存。稍后,我可以使用一个排序的数据集,当它小于 countBest 时,它不会添加另一个元素。我只担心算法速度。

我怎样才能加快速度?

0 投票
7 回答
2065 浏览

python - 基于投票的用户之间的相似性

假设我有一组用户、一组歌曲和每首歌曲的一组投票:

根据歌曲投票计算用户相似度的最有效方法是什么?有没有比遍历每个用户和对每首歌的每次投票更好的方法?

0 投票
7 回答
24408 浏览

lucene - 在lucene中获取两个文档之间的余弦相似度

我在 Lucene 中建立了一个索引。我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?)。

例如,我从以前打开的 IndexReader 中获取 id 为 2 和 4 的文档。 Document d1 = ir.document(2); 文档 d2 = ir.document(4);

如何获得这两个文档之间的余弦相似度?

谢谢

0 投票
2 回答
341 浏览

python - 基于标签的帖子之间的欧几里得距离

我正在玩编程集体智慧书中的欧几里德距离示例,

这是对影评人进行排名的原始代码,我正在尝试修改它以查找类似的帖子,基于我构建地图的标签,例如,

但如果将此应用于函数,

这变为 0 因为标签没有权重相同的标签排名为 1。我修改了代码以手动创建差异进行测试,

然后我得到了很多 0.5 的相似度,但是同一篇文章与它自己的相似度下降到 0.3。我想不出一种将欧几里得距离应用于我的情况的方法?

0 投票
8 回答
1858 浏览

algorithm - 快速相似度检测

我有大量对象,我需要找出它们之间的相似之处。

确切地说:给定两个对象,我可以将它们的相异度计算为一个数字,一个度量- 更高的值意味着更少的相似性,0 意味着对象具有相同的内容。计算这个数字的成本与较小对象的大小成正比(每个对象都有给定的大小)。

在给定一个对象的情况下,我需要能够快速找到与其相似的一组对象。

确切地说:我需要生成一个数据结构,将任何对象 o 映射到与 o 不比 d 更相似的对象集合,对于某些相异值 d,这样列出集合中的对象所花费的时间不会比如果它们在数组或链表中(也许它们实际上是)。通常,该集合将比对象的总数小得多,因此执行此计算非常值得。如果数据结构假设一个固定的 d 就足够了,但如果它适用于任意的 d,那就更好了。

你以前见过这个问题,或者类似的东西吗?什么是好的解决方案?

确切地说:一个简单的解决方案涉及计算所有对象对之间的差异,但这很慢 - O(n 2 ),其中 n 是对象的数量。有没有复杂度较低的通用解决方案?