问题标签 [similarity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
2525 浏览

artificial-intelligence - 数据挖掘中的“相似性”

在数据挖掘领域,是否有一个特定的子学科称为“相似性”?如果是,它处理什么。任何示例、链接、参考资料都会有所帮助。

此外,作为该领域的新手,我想了解社区对数据挖掘和人工智能之间的密切关系的看法。它们是同义词吗,一个是另一个的子集吗?

提前感谢您分享您的知识。

0 投票
4 回答
1841 浏览

solr - Solr 搜索分数在 0 到 1 范围内

是否可以配置 Solr 以使文档相似度得分在例如从 0(不匹配)到 1(完整文档和查询匹配)的范围内。

谢谢!

0 投票
1 回答
1571 浏览

java - Java:JPQL 搜索 -similar- 字符串

有什么方法可以让 JPQL 匹配相似的字符串?

类似的意思是:

  • 包含:在匹配实体的字符串中找到搜索字符串
  • 不区分大小写
  • 小错误:例如“arow”匹配“arrow”

我怀疑前两个会很容易,但是,我会感谢最后一个的帮助

谢谢

0 投票
6 回答
10502 浏览

statistics - 计算相似度的方法

我正在做一个社区网站,需要我计算任意两个用户之间的相似度。每个用户都使用以下属性进行描述:

年龄、皮肤类型(油性、干性)、头发类型(长、短、中)、生活方式(活跃的户外爱好者、电视迷)等。

谁能告诉我如何解决这个问题或向我指出一些资源?

0 投票
4 回答
3062 浏览

computer-science - 计算机科学分类

我正在开发用户收集标签的 Web 应用程序。我需要根据用户标签的相似性为用户创建一个建议列表。
例如,当用户登录系统时,系统获取他的标签并在用户数据库中搜索这些标签,并显示具有相似标签的用户。例如,如果用户 1有以下标签 [ Linux, Apache, MySQL, PHP ] 并且用户 2有 [ Windows, IIS, PHP, MySQL ] 它表示用户 2匹配用户 1的权重为 50%,因为他有 2 个相似的标签(PHPMySQL)。
但是想象一下用户 1有 [ASP, IIS, MS Access ] 和User 2有 [ PHP, Apache, MySQL ]。在这种情况下,我的系统不建议用户 2作为用户 1的“朋友”,反之亦然。但是我们知道这两个用户在工作领域有相似之处,都在 Web 技术(或 Web 编程等)工作。 所以,这就是为什么我需要对这些概念进行分类的计算机科学分类法(现在,但可能我还需要其他领域的分类法,如医学、物理学、数学等),这样当我搜索ASPPHP的相似性,例如,可以说它们具有相似性并且属于一个组(或类别)。

我希望我清楚地描述了我的问题,但如果有错误的解释会很高兴您的更正。
谢谢

0 投票
3 回答
5390 浏览

algorithm - 寻找最接近的匹配

我有一个带有一组参数的对象,例如:

另一方面,我有一个对象列表:

为列出的对象中的第一个 obj 找到最接近的匹配项的最佳(最简单)算法是什么?

0 投票
3 回答
5472 浏览

php - 什么是描述 PHP 算法来计算文本相似度的论文“Oliver [1993]”?

PHP 库中有一个函数similar_text()。文档 ( http://php.net/manual/en/function.similar-text.php ) 告诉我“这会计算 Oliver [1993] 中描述的两个字符串之间的相似性。”

尽管进行了广泛的搜索,但我找不到“Oliver [1993]”所指的论文;也没有任何可能成为“奥利弗”的候选人。PHP 源代码未记录。对 Oliver 1993 的唯一其他参考是在http://www.codeguru.com/forum/showthread.php?t=41089的论坛中,我认为该信息来自 PHP 文档。

有人知道这可能是什么吗?

0 投票
1 回答
13594 浏览

math - 如何计算两个相等维度的时间序列之间的马氏距离?

我正在对时间序列数据进行一些数据挖掘。我需要计算两个相等尺寸系列之间的距离或相似度。有人建议我使用欧几里得距离、Cos 相似度或马氏距离。前两个没有提供任何有用的信息。我似乎无法理解网络上的各种教程。

所以,

给定两个向量 A(a1, a2, a3,...,an) 和 B(b1, b2, b3,...,bn) 你如何找到它们之间的马氏距离?

(我收到了关于在SO本身上使用这些距离度量的建议,还有一个关于如何计算 Cos 相似度的问题;所以请在结束这个问题之前考虑一下)

0 投票
4 回答
1231 浏览

python - 优化算法以在 Python 中创建一起评分的项目列表

给定购买事件列表(customer_id,item)

我正在尝试构建一个数据结构,该结构可以告诉您一件商品与另一件商品一起购买了多少次。不是同时买的,是我开始存数据的时候买的。结果看起来像

表示用钉子买了两次锤子(人 1,3),用螺丝刀买了一次(人 1),用螺丝刀买了一次螺丝(人 3),依此类推......

我目前的做法是

users = dict 其中 userid 是键,购买的物品列表是值

usersForItem = dict 其中 itemid 是键,购买项目的用户列表是值

userlist = 对当前项目评分的用户的临时列表

所以,在这一点上,我有 2 个字典——谁买了什么,谁买了什么。这就是棘手的地方。现在填充了 usersForItem,我循环遍历它,遍历每个购买该项目的用户,并查看用户的其他购买。我承认这不是最 Pythonic 的做事方式——我试图确保在使用 Python 之前得到正确的结果(我就是这样)。

有没有更有效的方法可以做到这一点?此外,如果这种手术有合适的学术名称,我很想听听。

编辑:澄清包括我不限制购买同时购买的物品这一事实。物品可以随时购买。

0 投票
3 回答
23314 浏览

python - 不同长度向量的余弦相似度?

我正在尝试使用 TF-IDF将文档分类。我已经计算了一些文档的 tf_idf,但是现在当我尝试计算其中两个文档之间的余弦相似度时,我得到一个回溯说:

切片向量以便 len(u)==len(v) 是正确的方法吗?我认为余弦相似性适用于不同长度的向量。

我正在使用这个功能

另外——向量中 tf_idf 值的顺序重要吗?是否应该对它们进行排序——或者它对这个计算不重要?