问题标签 [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
686 浏览

php - preg_replace 和 ? (问号) - 怎么办?

我已经制作了这行代码来增强被搜索的单词。

但我的问题是,当我制作 $searchstr = '?'; 它设置在 $tekst 字符串中的每个字母之间。

整个脚本是:

0 投票
1 回答
80 浏览

mysql - 寻找相似的分组;包括差异和分数(即类似的食谱)

我试图找到最好的方法来确定一组项目(在这个例子中;鳄梨酱食谱中的成分)与所有项目组(表中的食谱;链接到另一个成分表)的相似程度。

例如; 我有以下鳄梨酱食谱:

3 鳄梨
1 成熟番茄
1 红洋葱
3 墨西哥胡椒
1 海盐
1 胡椒

我想在我所有的食谱表中运行这个食谱,以确定是否有另一个与之相似的食谱(基于成分和数量),按相似程度排序。此外,我希望它能够识别差异(无论是成分数量的差异;还是成分的不同)。

一个可能的输出是:

3 个鳄梨
(- 1 个成熟的西红柿)
1 个红洋葱
3 个墨西哥胡椒
1 个海盐
(- 1 个胡椒)
(+ 烟草)
89.5% 相同

这也可用于确定以下用例:“给定冰箱中的配料清单;我可以做些什么来吃?”。

感谢您为我指明正确方向提供的任何帮助。

0 投票
5 回答
7827 浏览

php - 如何在 PHP 中为拼写错误的单词找到相似的单词?

我将解释我的问题:

我有一个名为country. 它有两列:IDname

当我想搜索'paris',但拼错了单词:('pares''e'不是'i')时,我不会从数据库中得到任何结果。

我希望系统建议可以帮助搜索的类似单词。

所以,我正在寻求帮助编写一个脚本,该脚本从数据库中提出建议,其中包含类似的词,如:paris、paredes 等。

0 投票
6 回答
2456 浏览

colors - 如何使一个屏幕上的颜色看起来与另一个屏幕上的颜色相同

给定两台独立的计算机,如何确保在每个屏幕上投射的颜色大致相同?

IE,一个屏幕的亮度可能比另一个屏幕高 50%,因此一个屏幕上的颜色显得更暗淡。一位艺术家在一台计算机上看到的图片可能与另一位艺术家不同,重要的是他们看到的水平相同。

您可以通过软件进行某种校准技术吗?有什么技巧吗?还是硬件解决方案是唯一的方法?

0 投票
2 回答
426 浏览

python - 在 Python 中通过字典传递文本

我目前有使用余弦相似度度量比较两个文本的 python 代码。我在这里得到了代码。

我想要做的是在计算相似性度量之前先将这两个文本传递给字典(不是python字典,只是一个单词字典)。字典将只是一个单词列表,尽管它会是一个很大的列表。我知道这应该不难,我可能会偶然发现一些东西,但我也希望它高效。谢谢。

0 投票
1 回答
8038 浏览

similarity - 带有余弦相似度测量的 n-gram 句子相似度

我一直在做一个关于句子相似度的项目。我知道它已经在 SO 中被问过很多次,但我只是想知道我的问题是否可以通过我使用的方法来解决,或者我应该改变解决问题的方法。粗略地说,系统应该拆分一篇文章的所有句子,并在提供给系统的其他文章中找到相似的句子。

我正在使用带有 tf-idf 权重的余弦相似度,这就是我的做法。

1-首先,我将所有文章分成句子,然后为每个句子生成三元组并对它们进行排序(我应该吗?)。

2-我计算三元组的 tf-idf 权重并为所有句子创建向量。

3-我计算原始句子和要比较的句子的点积和大小。然后计算余弦相似度。

但是,该系统没有按我预期的那样工作。说到这里,我心里有几个问题。

据我了解 tf-idf 权重,我想它们对于查找类似的“文档”更有用。由于我正在研究句子,因此我通过更改 tf 和 idf 定义公式的一些变量来稍微修改了算法(而不是我试图提出基于句子的定义的文档)。

tf = 句子中 trigram 出现的次数 / 句子中所有 trigram 的数量

idf = 所有文章中所有句子的数量/出现 trigram 的句子数量

你认为对这个问题使用这样的定义可以吗?

另一个是我在计算余弦相似度时看到多次提到归一化。我猜这很重要,因为三元向量的大小可能不同(在我的情况下它们很少)。如果一个三元向量是 x 的大小,另一个是 x+1,那么我将第一个向量视为 x+1 的大小,最后一个值为 0。这就是归一化的意思吗?如果没有,我该如何进行标准化?

除了这些,如果我选择了错误的算法,还有什么可以用于此类问题(最好使用 n-gram 方法)?

先感谢您。

0 投票
4 回答
2732 浏览

algorithm - 在大型数据集中检测重复/相似的文本?

我有一个包含数千条记录的大型数据库。每次用户发布他的信息时,我都需要知道是否已经有相同/相似的记录。是否有任何算法或开源实现来解决这个问题?

我们用的是中文,“相似”的意思是记录有最相同的内容,可能是80%-100%是相同的。每条记录不会太大,大约2k-6k字节

0 投票
2 回答
353 浏览

algorithm - 是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现

论文:http ://www2007.org/papers/paper215.pdf

我只是想知道该论文第3章是否有任何实现。我的意思是在大型数据集之间进行查询,而不仅仅是 simhash(很容易找到 simhash 实现)。

谢谢~

0 投票
4 回答
1268 浏览

machine-learning - 我们可以使用多少种距离函数?

我正在阅读有关模式识别的内容。最近我想对评估向量相似性的方法进行调查。据我所知,有欧几里得距离、马氏距离和余弦距离。任何人都可以提供更多名称或关键字进行搜索吗?

0 投票
2 回答
1092 浏览

image - 如何找到同一对象的两个相似图像之间的对应关系或映射

我有两张房子的照片,相机只从第二张照片的位置移动了大约 1 米或大约 1 英尺。因此,对于第一张和第二张照片,它们非常相似,但在视角方面略有不同。

我想生成一个映射,第一张照片和第二张照片之间的对应关系。我想知道,对于第一张照片中的像素,它们在第二张照片和相反方向上映射到哪里。

我想有一些方法可以检测照片之间的相似结构,使用这种方式我可以粗略猜测像素的去向。

对于这个问题的第二部分,如果某些特征被隐藏或显示出来,我该如何解决这个问题,例如房子和相机之间有一棵树。因此,当我移动相机时,树会显示一些像素并隐藏一些像素,因为它位于相机和房子之间。