问题标签 [trigram]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3599 浏览

r - 如何按R中一行中的值选择列

我有一个大型数据框标记字符串中出现的三元组,其中字符串是行,三元组是列,值标记三元组是否出现在字符串中。

所以是这样的:

我想获取给定行或给定字符串为 1 的所有列/三元组。

因此,对于第 2 行,字符串“that”,结果将是一个如下所示的数据框:

我怎么能这样做?

0 投票
2 回答
709 浏览

google-bigquery - 如何在 Google BigQuery 中执行三元运算?

我确实使用pg_trgmPostgreSQL 中的模块来使用三元组计算两个字符串之间的相似度。特别是我使用:

哪个返回返回一个数字,该数字指示两个参数的相似程度(在 0 和 1 之间)。

如何在 Google BigQuery 上执行相似功能(或等效功能)?

0 投票
2 回答
832 浏览

python - Python恢复二元组和三元组

我有一个二元组和三元组的列表:

我想知道是否有一个函数可以反转二元组和三元组a_list?我知道我可以加入所有字符串并删除重复项,但这会丢失句子的结构。我正在寻找是否有人有任何提示,以便a_list可以将其恢复为原始字符串。

期望的输出是:

0 投票
1 回答
830 浏览

nlp - 实现三元马尔可夫模型

给定:

在此处输入图像描述

以及以下内容:

在此处输入图像描述

为了 :

这不应该1q(runs | the, dog): xi=runs , xi-2=the , xi-1=dog

概率是(wi 已被交换为 xi):

在此处输入图像描述

所以 :

但在上面的示例中,该值为 0.5 。0.5是怎么来的?

基于http://files.asimihsan.com/courses/nlp-coursera-2013/notes/nlp.html#markov-processes-part-1

0 投票
2 回答
2144 浏览

java - 在 Java 中获取“三元组”

trigrams我在使用 Java时遇到了一些问题。我的程序目前可以bigrams正常工作,但是当我尝试实现该方法的相同结构并对其进行更改以trigrams使其似乎无法正常工作时。我希望在trigrams中获得所有可能的单词组合arraylist,例如

这些数字决定了第一个单词和最后一个单词之间的距离,并且应该得到 3 中的每个单词组合arraylist。这目前适用于bigrams...

以下是方法

谁能帮我改变trigram()方法以创建适合trigram我需要的方法?谢谢你的帮助。

0 投票
3 回答
1006 浏览

postgresql - PostgreSQL 全文搜索缩写

我使用“德语”创建了 Postgresql 全文搜索。我如何配置,当我搜索“Bezirk”时,包含“Bez”的行。也有比赛?(反之亦然)

0 投票
0 回答
350 浏览

similarity - 推断归一化 levenshtein 距离和 trigram 相似函数的最佳阈值

通过使用归一化 levenshtein 距离函数和 trigram 相似度函数,比较来自两个数据集的记录的模糊匹配字符串相似度。计算 4 种不同的相似度指标:LevCmpSimilarity - 比较复合(连接)字段的归一化 Levenshtein 相似度,LevWghSimilarity - 归一化 Levenshtein 相似度作为所有被比较字段的摘要,TrgWgh 和 TrgCmp - 与 Levenshtein 相同,但使用 Trigram Similarity 函数莱文斯坦,

以下是频率和累积频率的所有四个指标的直方图。

绝对频率 累积频率

我的问题是:这些频率分布模式是否可以用于自动无监督地确定记录匹配接受/拒绝的最佳阈值?如果答案是肯定的,你能建议方向吗?

基本上,levenshtein 距离和 trigram 相似值频率模式是否可以仅用于推断模糊匹配记录链接的最佳阈值?

0 投票
2 回答
287 浏览

postgresql - plpgsql 函数内部调用三元相似度函数不使用 GIN 或 GIST 索引

我想结合 PostgreSQL Levenshtein 和 trigram 相似函数。三元相似度函数的主要优点是它可以利用 GIN 或 GIST 索引,因此可以快速返回模糊匹配结果。但是,如果在另一个函数中调用它,它不会使用索引。为了说明这个问题,这里有一个调用原始trigram的“相似性”函数的plpgsql函数“trigram_similarity”。

尽管该函数实际上只是调用了 trigram 的相似度函数,但在 GIN 索引的使用方面表现完全不同。虽然查询的 WHERE 子句中原始 trigram 的相似性函数确实使用了 GIN 索引,因此查询可以快速返回结果并且没有太多 RAM 消耗,但在使用 trigram_similarity 时却没有。对于大型数据集模糊匹配分析,RAM 被完全使用并且应用程序冻结......为了说明,这里是一个示例查询:

此查询会导致 RAM 堵塞和应用程序冻结。将“trigram_similarity”替换为“similarity”时,查询执行速度快且不会过度消耗 RAM。为什么“trigram_similarity”和“similarity”表现不同?有没有一种方法可以强制使用此“trigram_similarity”函数或内部调用 trigram 相似度函数的任何其他函数的 GIN 或 GIST 索引?

解释分析何时使用“相似度”:

0 投票
1 回答
1139 浏览

postgresql - 如何在 postgresql 中创建 n-gram

我想在我的应用程序中使用搜索功能。

我使用 trigram 来实现它,它工作正常。

问题是:

trigram 正在创建 3 个字符组的单词序列。我想要单个对象中超过 3 个字符。例如:

这将返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "}

我想{" a"," ab","abc","bcp","cpq","pqr","qrs","rs ","abcd","bcpq","cpqr"...}

我怎样才能做到这一点?

0 投票
1 回答
2837 浏览

string - 使用三元相似性算子进行多列相似性比较 %

我需要在 PostgreSQL 中使用三元相似度运算符 % 执行模糊匹配过滤(在 WHERE 子句中)。比较字段对很简单table1.field1 % table2.field2,可以使用 GIN 或 GIST 索引来显着提高性能。但是,我需要一次比较一堆字段,最终结论应该基于整体相似性。为此,我可以使用如下连接表达式:

但是,此表达式不能在单个字段上使用 GIN 或 GIST 索引,并且性能很差。当然,一个明显的解决方案是在两个表中创建新的连接字段,在它们上创建 GIN 索引,然后比较连接的字段。

在这种情况下,正在使用 GIN 或 GIST 索引。但是,由于各种原因,我对这个解决方案不满意,我想知道是否有另一种方法可以使用三元运算符 (%) 执行多列相似性比较,其中将使用单个字段 GIN 或 GIST 索引?