问题标签 [trigram]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
198 浏览

python - Django Postgres Trigram 搜索 - 我如何查看每个结果的分数?

我能够按相似度对三元组搜索进行排序,并按相似度得分进行过滤,这意味着必须有一些与每条记录相关的客观排名。我怎样才能获得那个分数?

我正在使用的代码:

如果我能够过滤similarity__gt=0.1或排序-similarity,是否还可以查看(并希望附加)每条记录的相似度排名?

0 投票
1 回答
140 浏览

c - 在C中计算三元组(3个字母序列)?

我正在尝试计算一个文本块中的三元组或三个字母序列的数量。我已经有一些代码可以使用二维数组成功计算二元组(2 个字母序列)的数量,但是我在更改它以接受三元组时遇到了一些麻烦。

编辑:这是我已经尝试过的代码。我希望将 2d 数组扩展为 3d 数组,但这不会返回任何内容。

例如,此代码打印所有出现的二元组,例如 aa、ab、ac 等。但我需要它来计算 aaa、aab、... zzz 的出现次数。任何帮助将不胜感激!

编辑 2:现在它成功打印了正确的输出,但它需要按降序排列(顶部最常用的三元组)

0 投票
0 回答
42 浏览

java - Trigram:只标记数据集的一部分

线程“main”中的异常 java.util.NoSuchElementException
文档中有 500 行,但它只标记了 300++ 行。s3 = itr.nextToken(); // 这是出错的行。控制台打印此行的错误。

0 投票
1 回答
340 浏览

python - 如何在 NLTK 中为 tri-gram 语言模型在单词级别执行 Kneser-Ney 平滑?

我正在尝试在文本语料库上训练三元语言模型并希望执行 KN 平滑。显然,“nltk.trigrams”在字符级别执行此操作。我想知道如何在单词级别做到这一点并执行 KN 平滑。这是我编写的一段代码,但不起作用:

我得到错误:

0 投票
1 回答
884 浏览

sql - 为什么 postgres trigram word_similarity 函数不使用 gin 索引?

postgres trigram 文档指出:

pg_trgm 模块提供 GiST 和 GIN 索引运算符类,允许您在文本列上创建索引,以实现非常快速的相似性搜索。这些索引类型支持上述相似性运算符,并且还支持基于三元组的索引搜索 LIKE、ILIKE、~ 和 ~* 查询。

并显示以下示例:

惊人的!

但是,在运行以下查询时:

创建的索引未被使用。

但是,当使用ILIKEor%>运算符时,似乎确实正在使用索引。为什么函数上没有使用索引word_similarity

0 投票
1 回答
456 浏览

python-3.x - 来自 pandas 列的 Ngram

我有一个熊猫数据框,包含以下列:

第 1 列

第 2 栏

等等

我的目标是计算数据帧的二元组、三元组、四元组(特别是已经被词形化的第 2 列)。

我尝试了以下方法:

但是,我有以下错误

我的最终目标是能够打印前 X 个二元组、三元组等。

0 投票
1 回答
122 浏览

r - 查找三元组概率的 data.table 错误和警告

我正在尝试与https://thiloshon.wordpress.com/2018/03/11/build-your-own-word-sentence-prediction-application-part-02/中相同的代码来进行单词级预测。输入文本数据也在提到的链接中,我使用en_US.news.txt文件作为我唯一的输入文件。

在这里,我得到以下关于三元组 Kneser 算法的错误:

我可以找到一些与数据表错误相关的类似问题,但我不明白我应该如何在代码中解决这个错误。

0 投票
0 回答
185 浏览

python - 如何在 django 和 PostgreSQL 中实现拼写不敏感搜索?

我想要实现的是,如果用户输入搜索“laptp”,那么数据库应该返回带有实际单词“Laptop”的结果。同样,如果用户输入“ambroidery”,那么数据库应该返回包含字符串的“embroidery”和“embroidred”单词的结果。希望它清除!

所以我尝试的是,我浏览了整个 django 文档,我发现最接近的是“Trigram Similarity”搜索。我按照文档进行了尝试:

在我的数据库中,我Products的描述中包含单词“silky”,但每次运行此查询时,我都会得到空查询集。即使我将数据值设置为“silky”,我也得到了空查询集。

所以首先建议我,这是否是我想要实现的正确方法,其次,如果是,那么为什么它返回空查询集?

0 投票
1 回答
156 浏览

postgresql - 使用 Jsonb 数组中的索引进行 PostgreSQL 文本搜索

给定以下数据集:

content是一个 JSONB 列,其中包含text一个 Json 文本数组的键。

我希望能够ILIKE使用索引在此文本中搜索或类似功能。

从功能上讲,这是可行的,这就是我想做的:

是否有使用索引具有相同输出的解决方案?我正在寻找一个非常大的数据集。

看起来不可能使用三元组索引 ( ERROR: operator class "gist_trgm_ops" does not accept data type jsonb)

0 投票
1 回答
87 浏览

python - 在 List of Sentences 中查找单词列表并返回匹配的句子

从句子列表和单词列表中,如何返回句子列表,前提是所有三个单词都与单词列表(Trigrams)匹配。

请建议。以下是示例列表。

输出列表应该是第一个和最后一个句子,因为它们在 listwords 中有三个匹配的单词。

预期输出为: