“similarity”的相关标签问题

0 投票

1 回答

686 浏览

php - preg_replace 和 ? （问号） - 怎么办？

我已经制作了这行代码来增强被搜索的单词。

但我的问题是，当我制作 $searchstr = '?'; 它设置在 $tekst 字符串中的每个字母之间。

整个脚本是：

2010-10-06T20:11:42.413

0 投票

1 回答

80 浏览

mysql - 寻找相似的分组；包括差异和分数（即类似的食谱）

我试图找到最好的方法来确定一组项目（在这个例子中；鳄梨酱食谱中的成分）与所有项目组（表中的食谱；链接到另一个成分表）的相似程度。

例如; 我有以下鳄梨酱食谱：

3 鳄梨
1 成熟番茄
1 红洋葱
3 墨西哥胡椒
1 海盐
1 胡椒

我想在我所有的食谱表中运行这个食谱，以确定是否有另一个与之相似的食谱（基于成分和数量），按相似程度排序。此外，我希望它能够识别差异（无论是成分数量的差异；还是成分的不同）。

一个可能的输出是：

3 个鳄梨
（- 1 个成熟的西红柿）
1 个红洋葱
3 个墨西哥胡椒
1 个海盐
（- 1 个胡椒）
（+ 烟草）
89.5% 相同

这也可用于确定以下用例：“给定冰箱中的配料清单；我可以做些什么来吃？”。

感谢您为我指明正确方向提供的任何帮助。

mysql comparison similarity

2010-10-12T18:43:07.057

0 投票

5 回答

7827 浏览

php - 如何在 PHP 中为拼写错误的单词找到相似的单词？

我将解释我的问题：

我有一个名为country. 它有两列：ID和name。

当我想搜索'paris'，但拼错了单词：（'pares'而'e'不是'i'）时，我不会从数据库中得到任何结果。

我希望系统建议可以帮助搜索的类似单词。

所以，我正在寻求帮助编写一个脚本，该脚本从数据库中提出建议，其中包含类似的词，如：paris、paredes 等。

php string string-comparison similarity

2010-10-15T06:35:07.827

0 投票

6 回答

2456 浏览

colors - 如何使一个屏幕上的颜色看起来与另一个屏幕上的颜色相同

给定两台独立的计算机，如何确保在每个屏幕上投射的颜色大致相同？

IE，一个屏幕的亮度可能比另一个屏幕高 50%，因此一个屏幕上的颜色显得更暗淡。一位艺术家在一台计算机上看到的图片可能与另一位艺术家不同，重要的是他们看到的水平相同。

您可以通过软件进行某种校准技术吗？有什么技巧吗？还是硬件解决方案是唯一的方法？

colors parallel-processing similarity brightness

2010-10-18T14:04:04.763

0 投票

2 回答

426 浏览

python - 在 Python 中通过字典传递文本

我目前有使用余弦相似度度量比较两个文本的 python 代码。我在这里得到了代码。

我想要做的是在计算相似性度量之前先将这两个文本传递给字典（不是python字典，只是一个单词字典）。字典将只是一个单词列表，尽管它会是一个很大的列表。我知道这应该不难，我可能会偶然发现一些东西，但我也希望它高效。谢谢。

python text similarity

2010-10-21T23:20:19.313

0 投票

1 回答

8038 浏览

similarity - 带有余弦相似度测量的 n-gram 句子相似度

我一直在做一个关于句子相似度的项目。我知道它已经在 SO 中被问过很多次，但我只是想知道我的问题是否可以通过我使用的方法来解决，或者我应该改变解决问题的方法。粗略地说，系统应该拆分一篇文章的所有句子，并在提供给系统的其他文章中找到相似的句子。

我正在使用带有 tf-idf 权重的余弦相似度，这就是我的做法。

1-首先，我将所有文章分成句子，然后为每个句子生成三元组并对它们进行排序（我应该吗？）。

2-我计算三元组的 tf-idf 权重并为所有句子创建向量。

3-我计算原始句子和要比较的句子的点积和大小。然后计算余弦相似度。

但是，该系统没有按我预期的那样工作。说到这里，我心里有几个问题。

据我了解 tf-idf 权重，我想它们对于查找类似的“文档”更有用。由于我正在研究句子，因此我通过更改 tf 和 idf 定义公式的一些变量来稍微修改了算法（而不是我试图提出基于句子的定义的文档）。

tf = 句子中 trigram 出现的次数 / 句子中所有 trigram 的数量

idf = 所有文章中所有句子的数量/出现 trigram 的句子数量

你认为对这个问题使用这样的定义可以吗？

另一个是我在计算余弦相似度时看到多次提到归一化。我猜这很重要，因为三元向量的大小可能不同（在我的情况下它们很少）。如果一个三元向量是 x 的大小，另一个是 x+1，那么我将第一个向量视为 x+1 的大小，最后一个值为 0。这就是归一化的意思吗？如果没有，我该如何进行标准化？

除了这些，如果我选择了错误的算法，还有什么可以用于此类问题（最好使用 n-gram 方法）？

先感谢您。

similarity trigonometry n-gram

2010-10-27T19:59:57.897

0 投票

4 回答

2732 浏览

algorithm - 在大型数据集中检测重复/相似的文本？

我有一个包含数千条记录的大型数据库。每次用户发布他的信息时，我都需要知道是否已经有相同/相似的记录。是否有任何算法或开源实现来解决这个问题？

我们用的是中文，“相似”的意思是记录有最相同的内容，可能是80%-100%是相同的。每条记录不会太大，大约2k-6k字节

algorithm similarity

2010-11-01T06:51:36.320

0 投票

2 回答

353 浏览

algorithm - 是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现

论文：http ://www2007.org/papers/paper215.pdf

我只是想知道该论文第3章是否有任何实现。我的意思是在大型数据集之间进行查询，而不仅仅是 simhash（很容易找到 simhash 实现）。

谢谢~

algorithm duplicates similarity

2010-11-01T15:06:22.837

0 投票

4 回答

1268 浏览

machine-learning - 我们可以使用多少种距离函数？

我正在阅读有关模式识别的内容。最近我想对评估向量相似性的方法进行调查。据我所知，有欧几里得距离、马氏距离和余弦距离。任何人都可以提供更多名称或关键字进行搜索吗？

machine-learning metrics distance similarity

2010-11-04T12:43:25.903

0 投票

2 回答

1092 浏览

image - 如何找到同一对象的两个相似图像之间的对应关系或映射

我有两张房子的照片，相机只从第二张照片的位置移动了大约 1 米或大约 1 英尺。因此，对于第一张和第二张照片，它们非常相似，但在视角方面略有不同。

我想生成一个映射，第一张照片和第二张照片之间的对应关系。我想知道，对于第一张照片中的像素，它们在第二张照片和相反方向上映射到哪里。

我想有一些方法可以检测照片之间的相似结构，使用这种方式我可以粗略猜测像素的去向。

对于这个问题的第二部分，如果某些特征被隐藏或显示出来，我该如何解决这个问题，例如房子和相机之间有一棵树。因此，当我移动相机时，树会显示一些像素并隐藏一些像素，因为它位于相机和房子之间。

image photo similarity photos

2010-11-05T07:12:45.127

问题标签 [similarity]

Reference