问题标签 [sentence-similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 如何查找csv中两个文本列之间的相似性
我在一个包含 4000 条记录的 csv 文件中有两个文本列。我必须在两个文本列之间执行文本相似性。我该怎么做?
python - 将数据框中的一项功能应用于所有其他项
我正在检查 Python 中文本的相似性。我有大约 100 条记录的数据集,并准备了一个用于检查相似性的函数——它有 2 个参数用于 2 组单词。
我的数据框:
……
我想创建一个方法来迭代给定行的数据帧,并找出比方说 2 个最相似的记录。例如checkSimilarity(1)
,checkSimilarity(df['col'][1])
对于数据框中的索引 1,我们将给出[3, 4]
最相似的结果。
python - python中的句子含义相似性
我想计算句子含义相似度。我正在使用余弦相似度,但这种方法不能满足我的需求。
例如,如果我有这两个句子。
- 他和他的父亲非常亲近。
- 他与父亲有着奇妙的联系。
我需要的是根据含义相似度计算这些句子之间的相似度,而不仅仅是匹配相似的单词
有没有办法做到这一点?
nlp - Bert 针对语义相似性进行了微调
我想应用微调 Bert 来计算句子之间的语义相似度。我搜索了很多网站,但我几乎没有在下游找到这个。
我刚刚找到STS benchmark。我想知道我是否可以使用 STS 基准数据集来训练微调 bert 模型,并将其应用于我的任务。合理吗?
据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关度、曼哈顿距离等。语义相似度如何选择?
python - fasttext 预训练句子相似度
我想使用 fasttext 预训练模型来计算一组句子之间的句子相似度。谁能帮我?什么是最好的方法?
我通过训练一个 tfidf 模型来计算句子之间的相似度。写这样的代码。是否可以更改它并使用 fasttext 预训练模型?例如使用向量来训练 tfidf 模型?
nlp - 句子之间的语义比较
我想做一个句子的语义比较。例如,我有一个输入:
“特朗普从来没有当过美国总统”
我在报纸上对此进行网络抓取并发现,假设这个结果:
“特朗普是美国总统”。
现在我需要对输入和结果(多个)进行语义比较,以确定给定的输入是否正确。
我在网上冲浪并找到了一些 API,如dandelion和paralleldots,但他们正在做句子比较,并给我90% 以上的分数。
谁能指导我如何彻底检查此问题或我可以用于此任务的任何开源 API?
另一个例子:
输入:
“特朗普是英国总统”
将输入与:
“特朗普是美国总统”
oracle - 2个符号oracle之间的相似性
包含超过 300 万行名称(姓名、姓氏、父亲姓名)的表。我希望检查相似性超过 90%。我使用了许多模糊算法以及 utl_match 相似性(jaro_winkler、edit_distance)。这些算法的性能并不好。(超过 20 秒。)我想检查变化的地方,但它的工作时间很长。像:姓氏父亲姓氏,姓氏姓氏姓氏,姓氏姓氏,............我找不到任何性能良好的算法,它适用于事务系统。
python - torchtext 库中的 interleave_keys() 函数究竟做了什么?
你可以在torchtext/data/utils.py文件中找到这个函数
我已经给出了官方代码和下面的文档
更详细的解释将有助于理解它如何根据给定的两个字符串的相似程度返回一个整数。
而且里面使用的format函数是python中常用的内置函数
python - 组织名称的语义相似度得分有什么解决方案吗?
目前我们使用多语言通用句子编码器(MUSE)进行相似度评分。我们有一个聊天机器人系统,我们可以在其中使用每个意图的样本列表来定义意图。然后我们将用户话语的语义相似性与每个意图样本进行比较,以确定该话语是否属于任何意图。
但我不知道我们如何处理组织名称(或任何名称实体),例如,如果我们有意图 ask_info,我们想要诸如“告诉我有关 Google 的信息”或“告诉我有关三星的信息”之类的句子属于那个意图。但是如果我们只放 1 个句子作为样本,比如“Tell me info about Google”,如果用户输入“Tell me about XXX”,则 MUSE 的相似度得分非常低,只有 0.4 ~ 0.5 左右,无法通过我们的阈值。所以有人有想法处理这种情况吗?非常感谢。
python-3.x - 使用谷歌新闻语料word2vec模型python的句子之间的余弦相似度
我正在尝试使用 word2vec 谷歌新闻语料库找到两个长度不等的句子之间的余弦相似度,但出现错误:AxisError: axis 1 is out of bounds for array of dimension 1
下面是我的代码:
我将句子转换为向量,因为 cosine_similarity 将向量数组作为输入。我该如何解决这个问题?