问题标签 [trigram]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何按R中一行中的值选择列
我有一个大型数据框标记字符串中出现的三元组,其中字符串是行,三元组是列,值标记三元组是否出现在字符串中。
所以是这样的:
我想获取给定行或给定字符串为 1 的所有列/三元组。
因此,对于第 2 行,字符串“that”,结果将是一个如下所示的数据框:
我怎么能这样做?
google-bigquery - 如何在 Google BigQuery 中执行三元运算?
我确实使用pg_trgm
PostgreSQL 中的模块来使用三元组计算两个字符串之间的相似度。特别是我使用:
哪个返回返回一个数字,该数字指示两个参数的相似程度(在 0 和 1 之间)。
如何在 Google BigQuery 上执行相似功能(或等效功能)?
python - Python恢复二元组和三元组
我有一个二元组和三元组的列表:
我想知道是否有一个函数可以反转二元组和三元组a_list
?我知道我可以加入所有字符串并删除重复项,但这会丢失句子的结构。我正在寻找是否有人有任何提示,以便a_list
可以将其恢复为原始字符串。
期望的输出是:
nlp - 实现三元马尔可夫模型
给定:
以及以下内容:
为了 :
这不应该1
是
q(runs | the, dog)
: xi=runs , xi-2=the , xi-1=dog
概率是(wi 已被交换为 xi):
所以 :
但在上面的示例中,该值为 0.5 。0.5是怎么来的?
基于http://files.asimihsan.com/courses/nlp-coursera-2013/notes/nlp.html#markov-processes-part-1
java - 在 Java 中获取“三元组”
trigrams
我在使用 Java时遇到了一些问题。我的程序目前可以bigrams
正常工作,但是当我尝试实现该方法的相同结构并对其进行更改以trigrams
使其似乎无法正常工作时。我希望在trigrams
中获得所有可能的单词组合arraylist
,例如
这些数字决定了第一个单词和最后一个单词之间的距离,并且应该得到 3 中的每个单词组合arraylist
。这目前适用于bigrams
...
以下是方法
谁能帮我改变trigram()
方法以创建适合trigram
我需要的方法?谢谢你的帮助。
postgresql - PostgreSQL 全文搜索缩写
我使用“德语”创建了 Postgresql 全文搜索。我如何配置,当我搜索“Bezirk”时,包含“Bez”的行。也有比赛?(反之亦然)
similarity - 推断归一化 levenshtein 距离和 trigram 相似函数的最佳阈值
通过使用归一化 levenshtein 距离函数和 trigram 相似度函数,比较来自两个数据集的记录的模糊匹配字符串相似度。计算 4 种不同的相似度指标:LevCmpSimilarity - 比较复合(连接)字段的归一化 Levenshtein 相似度,LevWghSimilarity - 归一化 Levenshtein 相似度作为所有被比较字段的摘要,TrgWgh 和 TrgCmp - 与 Levenshtein 相同,但使用 Trigram Similarity 函数莱文斯坦,
以下是频率和累积频率的所有四个指标的直方图。
我的问题是:这些频率分布模式是否可以用于自动无监督地确定记录匹配接受/拒绝的最佳阈值?如果答案是肯定的,你能建议方向吗?
基本上,levenshtein 距离和 trigram 相似值频率模式是否可以仅用于推断模糊匹配记录链接的最佳阈值?
postgresql - plpgsql 函数内部调用三元相似度函数不使用 GIN 或 GIST 索引
我想结合 PostgreSQL Levenshtein 和 trigram 相似函数。三元相似度函数的主要优点是它可以利用 GIN 或 GIST 索引,因此可以快速返回模糊匹配结果。但是,如果在另一个函数中调用它,它不会使用索引。为了说明这个问题,这里有一个调用原始trigram的“相似性”函数的plpgsql函数“trigram_similarity”。
尽管该函数实际上只是调用了 trigram 的相似度函数,但在 GIN 索引的使用方面表现完全不同。虽然查询的 WHERE 子句中原始 trigram 的相似性函数确实使用了 GIN 索引,因此查询可以快速返回结果并且没有太多 RAM 消耗,但在使用 trigram_similarity 时却没有。对于大型数据集模糊匹配分析,RAM 被完全使用并且应用程序冻结......为了说明,这里是一个示例查询:
此查询会导致 RAM 堵塞和应用程序冻结。将“trigram_similarity”替换为“similarity”时,查询执行速度快且不会过度消耗 RAM。为什么“trigram_similarity”和“similarity”表现不同?有没有一种方法可以强制使用此“trigram_similarity”函数或内部调用 trigram 相似度函数的任何其他函数的 GIN 或 GIST 索引?
解释分析何时使用“相似度”:
postgresql - 如何在 postgresql 中创建 n-gram
我想在我的应用程序中使用搜索功能。
我使用 trigram 来实现它,它工作正常。
问题是:
trigram 正在创建 3 个字符组的单词序列。我想要单个对象中超过 3 个字符。例如:
这将返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "}
我想{" a"," ab","abc","bcp","cpq","pqr","qrs","rs ","abcd","bcpq","cpqr"...}
我怎样才能做到这一点?
string - 使用三元相似性算子进行多列相似性比较 %
我需要在 PostgreSQL 中使用三元相似度运算符 % 执行模糊匹配过滤(在 WHERE 子句中)。比较字段对很简单table1.field1 % table2.field2
,可以使用 GIN 或 GIST 索引来显着提高性能。但是,我需要一次比较一堆字段,最终结论应该基于整体相似性。为此,我可以使用如下连接表达式:
但是,此表达式不能在单个字段上使用 GIN 或 GIST 索引,并且性能很差。当然,一个明显的解决方案是在两个表中创建新的连接字段,在它们上创建 GIN 索引,然后比较连接的字段。
在这种情况下,正在使用 GIN 或 GIST 索引。但是,由于各种原因,我对这个解决方案不满意,我想知道是否有另一种方法可以使用三元运算符 (%) 执行多列相似性比较,其中将使用单个字段 GIN 或 GIST 索引?