问题标签 [sentence-similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 文本中句子之间的语义相似性
我已经使用这里的材料和以前的论坛页面为一个程序编写了一些代码,该程序将自动计算整个文本中连续句子之间的语义相似度。这里是;
第一部分的代码是从第一个链接复制粘贴的,然后我在下面的 245 行后面放了这些东西。我在第 245 行之后删除了所有多余的部分。
我的文本文件格式如下;
红色酒精饮料。新鲜的橙汁。一本英文词典。黄色壁纸。
最后我想显示所有具有相似性的连续句子对,如下所示;
python - python中的部分匹配短语
我想找到 2 个字符串/短语之间的部分匹配,并以[0,1]
. 我尝试使用SequenceMatcher
相同的。
请在下面找到示例代码:
在这里,我得到的分数out1
是0.279
和。然而,在语义上不是匹配,虽然是有道理的。如何在单词级别评估字符串?out2
0.4
out1
out2
预期输出将类似于out1 = 0
and out2=0.4
。评分应基于单词级别的相似性。
任何替代解决方案都会有所帮助。
提前致谢!
编辑:通过参考vpekar接受的解决方案,使用余弦相似度作为衡量标准解决了这个问题: 如何计算给定 2 个句子字符串的余弦相似度?- Python
python - 字符串相似度 TF-IDF Bag of words or Word2vec
我正在尝试创建一个计算 2 个字符串之间的相似性的应用程序。琴弦不长。3 句子最长。我做了一些研究,发现了一些可能的解决方案。
第一个使用词袋:计算词并比较生成的 2 个向量(余弦相似度)
第二个使用 TF-IDF 并比较生成的向量。
第三个是使用 word2vec 和比较向量。
现在回答问题。
性能方面,word2vec 的短句性能是否优于 TF-IDF?
训练 word2vec 模型的最佳方法是什么?我应该使用大量文本(例如维基百科转储)还是只使用正在比较的句子来训练它。
如何从 word2vec 中获取句子相似度。我应该平均每个句子中的单词还是有更好的解决方案?
data-mining - 一组文本文档的相似度
我正在寻找一种尝试检查的算法
1)文档中句子的相似度(约5000)
2) 多个文档(约 5000 个)彼此之间的相似度
我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何方式彼此相似。是否有任何现有的方法可以做到这一点。
python - 基于 Wordnet 的语义相似度测量
目前我正在使用基于 WordNet 的语义相似度测量项目。正如我所知道的,以下是计算两个句子之间语义相似度的步骤:
- 每个句子都被划分为一个标记列表。
- 词干。
- 词性消歧(或标记)。
- 为句子中的每个单词找到最合适的含义(词义消歧)。
- 根据词对的相似度计算句子的相似度。
现在我在第 3 步。但我无法得到正确的输出。我对 Python 不是很熟悉。所以我很感激你的帮助。
这是我的代码。
Sample.txt 包含句子,我正在乘车。我正坐在车里。
python - 如何使用简单匹配系数找到两个句子之间的相似性度量?
我一直在关注此链接上的代码以查找输入 X 和 Y 之间的相似性度量:
但是,它假设输入 X 和 Y 应该分别是N1 * M
和N2 * M
维矩阵。我对如何将可变长度句子的输入转换为所需的输入格式感到困惑。
另外,如果有人能建议我找到其他方法,我将不胜感激。
postgresql - elasticsearch ngram 和 postgresql trigram 搜索结果不匹配
我在弹性搜索上创建了一个索引,如下所示:
我的测试项目如下:
我用下面的查询测试了这个索引:
结果:
但是postgresql上的相同数据具有以下SQL 响应另一个结果:
结果是:
为什么会产生这种差异?
word2vec - 针对公司名称相似性训练 doc2vec
我正在尝试使用名称相似性对大量公司(40M+)进行重复数据删除。我有 500K 的公司名称对标记为相同/不同(如 IBM=International Business Machines)。通过对名称对的向量差异进行逻辑回归建立的模型具有很高的 f 值(0.98),但推理(找到最相似的名称)太慢(每个名称几乎 2 秒)。
是否可以使用名称相似性对(正负)来训练 doc2vec 模型,从而导致相似的名称具有相似的向量,以便我可以使用像 Annoy 这样的快速向量相似性算法?