问题标签 [similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - preg_replace 和 ? (问号) - 怎么办?
我已经制作了这行代码来增强被搜索的单词。
但我的问题是,当我制作 $searchstr = '?'; 它设置在 $tekst 字符串中的每个字母之间。
整个脚本是:
mysql - 寻找相似的分组;包括差异和分数(即类似的食谱)
我试图找到最好的方法来确定一组项目(在这个例子中;鳄梨酱食谱中的成分)与所有项目组(表中的食谱;链接到另一个成分表)的相似程度。
例如; 我有以下鳄梨酱食谱:
3 鳄梨
1 成熟番茄
1 红洋葱
3 墨西哥胡椒
1 海盐
1 胡椒
我想在我所有的食谱表中运行这个食谱,以确定是否有另一个与之相似的食谱(基于成分和数量),按相似程度排序。此外,我希望它能够识别差异(无论是成分数量的差异;还是成分的不同)。
一个可能的输出是:
3 个鳄梨
(- 1 个成熟的西红柿)
1 个红洋葱
3 个墨西哥胡椒
1 个海盐
(- 1 个胡椒)
(+ 烟草)
89.5% 相同
这也可用于确定以下用例:“给定冰箱中的配料清单;我可以做些什么来吃?”。
感谢您为我指明正确方向提供的任何帮助。
php - 如何在 PHP 中为拼写错误的单词找到相似的单词?
我将解释我的问题:
我有一个名为country
. 它有两列:ID
和name
。
当我想搜索'paris'
,但拼错了单词:('pares'
而'e'
不是'i'
)时,我不会从数据库中得到任何结果。
我希望系统建议可以帮助搜索的类似单词。
所以,我正在寻求帮助编写一个脚本,该脚本从数据库中提出建议,其中包含类似的词,如:paris、paredes 等。
colors - 如何使一个屏幕上的颜色看起来与另一个屏幕上的颜色相同
给定两台独立的计算机,如何确保在每个屏幕上投射的颜色大致相同?
IE,一个屏幕的亮度可能比另一个屏幕高 50%,因此一个屏幕上的颜色显得更暗淡。一位艺术家在一台计算机上看到的图片可能与另一位艺术家不同,重要的是他们看到的水平相同。
您可以通过软件进行某种校准技术吗?有什么技巧吗?还是硬件解决方案是唯一的方法?
python - 在 Python 中通过字典传递文本
我目前有使用余弦相似度度量比较两个文本的 python 代码。我在这里得到了代码。
我想要做的是在计算相似性度量之前先将这两个文本传递给字典(不是python字典,只是一个单词字典)。字典将只是一个单词列表,尽管它会是一个很大的列表。我知道这应该不难,我可能会偶然发现一些东西,但我也希望它高效。谢谢。
similarity - 带有余弦相似度测量的 n-gram 句子相似度
我一直在做一个关于句子相似度的项目。我知道它已经在 SO 中被问过很多次,但我只是想知道我的问题是否可以通过我使用的方法来解决,或者我应该改变解决问题的方法。粗略地说,系统应该拆分一篇文章的所有句子,并在提供给系统的其他文章中找到相似的句子。
我正在使用带有 tf-idf 权重的余弦相似度,这就是我的做法。
1-首先,我将所有文章分成句子,然后为每个句子生成三元组并对它们进行排序(我应该吗?)。
2-我计算三元组的 tf-idf 权重并为所有句子创建向量。
3-我计算原始句子和要比较的句子的点积和大小。然后计算余弦相似度。
但是,该系统没有按我预期的那样工作。说到这里,我心里有几个问题。
据我了解 tf-idf 权重,我想它们对于查找类似的“文档”更有用。由于我正在研究句子,因此我通过更改 tf 和 idf 定义公式的一些变量来稍微修改了算法(而不是我试图提出基于句子的定义的文档)。
tf = 句子中 trigram 出现的次数 / 句子中所有 trigram 的数量
idf = 所有文章中所有句子的数量/出现 trigram 的句子数量
你认为对这个问题使用这样的定义可以吗?
另一个是我在计算余弦相似度时看到多次提到归一化。我猜这很重要,因为三元向量的大小可能不同(在我的情况下它们很少)。如果一个三元向量是 x 的大小,另一个是 x+1,那么我将第一个向量视为 x+1 的大小,最后一个值为 0。这就是归一化的意思吗?如果没有,我该如何进行标准化?
除了这些,如果我选择了错误的算法,还有什么可以用于此类问题(最好使用 n-gram 方法)?
先感谢您。
algorithm - 在大型数据集中检测重复/相似的文本?
我有一个包含数千条记录的大型数据库。每次用户发布他的信息时,我都需要知道是否已经有相同/相似的记录。是否有任何算法或开源实现来解决这个问题?
我们用的是中文,“相似”的意思是记录有最相同的内容,可能是80%-100%是相同的。每条记录不会太大,大约2k-6k字节
algorithm - 是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现
论文:http ://www2007.org/papers/paper215.pdf
我只是想知道该论文第3章是否有任何实现。我的意思是在大型数据集之间进行查询,而不仅仅是 simhash(很容易找到 simhash 实现)。
谢谢~
machine-learning - 我们可以使用多少种距离函数?
我正在阅读有关模式识别的内容。最近我想对评估向量相似性的方法进行调查。据我所知,有欧几里得距离、马氏距离和余弦距离。任何人都可以提供更多名称或关键字进行搜索吗?
image - 如何找到同一对象的两个相似图像之间的对应关系或映射
我有两张房子的照片,相机只从第二张照片的位置移动了大约 1 米或大约 1 英尺。因此,对于第一张和第二张照片,它们非常相似,但在视角方面略有不同。
我想生成一个映射,第一张照片和第二张照片之间的对应关系。我想知道,对于第一张照片中的像素,它们在第二张照片和相反方向上映射到哪里。
我想有一些方法可以检测照片之间的相似结构,使用这种方式我可以粗略猜测像素的去向。
对于这个问题的第二部分,如果某些特征被隐藏或显示出来,我该如何解决这个问题,例如房子和相机之间有一棵树。因此,当我移动相机时,树会显示一些像素并隐藏一些像素,因为它位于相机和房子之间。