问题标签 [trigram]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Django Postgres Trigram 搜索 - 我如何查看每个结果的分数?
我能够按相似度对三元组搜索进行排序,并按相似度得分进行过滤,这意味着必须有一些与每条记录相关的客观排名。我怎样才能获得那个分数?
我正在使用的代码:
如果我能够过滤similarity__gt=0.1
或排序-similarity
,是否还可以查看(并希望附加)每条记录的相似度排名?
c - 在C中计算三元组(3个字母序列)?
我正在尝试计算一个文本块中的三元组或三个字母序列的数量。我已经有一些代码可以使用二维数组成功计算二元组(2 个字母序列)的数量,但是我在更改它以接受三元组时遇到了一些麻烦。
编辑:这是我已经尝试过的代码。我希望将 2d 数组扩展为 3d 数组,但这不会返回任何内容。
例如,此代码打印所有出现的二元组,例如 aa、ab、ac 等。但我需要它来计算 aaa、aab、... zzz 的出现次数。任何帮助将不胜感激!
编辑 2:现在它成功打印了正确的输出,但它需要按降序排列(顶部最常用的三元组)
java - Trigram:只标记数据集的一部分
线程“main”中的异常 java.util.NoSuchElementException
文档中有 500 行,但它只标记了 300++ 行。s3 = itr.nextToken(); // 这是出错的行。控制台打印此行的错误。
python - 如何在 NLTK 中为 tri-gram 语言模型在单词级别执行 Kneser-Ney 平滑?
我正在尝试在文本语料库上训练三元语言模型并希望执行 KN 平滑。显然,“nltk.trigrams”在字符级别执行此操作。我想知道如何在单词级别做到这一点并执行 KN 平滑。这是我编写的一段代码,但不起作用:
我得到错误:
sql - 为什么 postgres trigram word_similarity 函数不使用 gin 索引?
postgres trigram 文档指出:
pg_trgm 模块提供 GiST 和 GIN 索引运算符类,允许您在文本列上创建索引,以实现非常快速的相似性搜索。这些索引类型支持上述相似性运算符,并且还支持基于三元组的索引搜索 LIKE、ILIKE、~ 和 ~* 查询。
并显示以下示例:
惊人的!
但是,在运行以下查询时:
创建的索引未被使用。
但是,当使用ILIKE
or%>
运算符时,似乎确实正在使用索引。为什么函数上没有使用索引word_similarity
?
python-3.x - 来自 pandas 列的 Ngram
我有一个熊猫数据框,包含以下列:
第 1 列
第 2 栏
等等
我的目标是计算数据帧的二元组、三元组、四元组(特别是已经被词形化的第 2 列)。
我尝试了以下方法:
但是,我有以下错误
我的最终目标是能够打印前 X 个二元组、三元组等。
r - 查找三元组概率的 data.table 错误和警告
我正在尝试与https://thiloshon.wordpress.com/2018/03/11/build-your-own-word-sentence-prediction-application-part-02/中相同的代码来进行单词级预测。输入文本数据也在提到的链接中,我使用en_US.news.txt
文件作为我唯一的输入文件。
在这里,我得到以下关于三元组 Kneser 算法的错误:
我可以找到一些与数据表错误相关的类似问题,但我不明白我应该如何在代码中解决这个错误。
python - 如何在 django 和 PostgreSQL 中实现拼写不敏感搜索?
我想要实现的是,如果用户输入搜索“laptp”,那么数据库应该返回带有实际单词“Laptop”的结果。同样,如果用户输入“ambroidery”,那么数据库应该返回包含字符串的“embroidery”和“embroidred”单词的结果。希望它清除!
所以我尝试的是,我浏览了整个 django 文档,我发现最接近的是“Trigram Similarity”搜索。我按照文档进行了尝试:
在我的数据库中,我Products
的描述中包含单词“silky”,但每次运行此查询时,我都会得到空查询集。即使我将数据值设置为“silky”,我也得到了空查询集。
所以首先建议我,这是否是我想要实现的正确方法,其次,如果是,那么为什么它返回空查询集?
postgresql - 使用 Jsonb 数组中的索引进行 PostgreSQL 文本搜索
给定以下数据集:
content
是一个 JSONB 列,其中包含text
一个 Json 文本数组的键。
我希望能够ILIKE
使用索引在此文本中搜索或类似功能。
从功能上讲,这是可行的,这就是我想做的:
是否有使用索引具有相同输出的解决方案?我正在寻找一个非常大的数据集。
看起来不可能使用三元组索引 ( ERROR: operator class "gist_trgm_ops" does not accept data type jsonb
)
python - 在 List of Sentences 中查找单词列表并返回匹配的句子
从句子列表和单词列表中,如何返回句子列表,前提是所有三个单词都与单词列表(Trigrams)匹配。
请建议。以下是示例列表。
输出列表应该是第一个和最后一个句子,因为它们在 listwords 中有三个匹配的单词。
预期输出为: