问题标签 [collocation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8776 浏览

python - 如何在 python nltk 中获得 n-gram 搭配和关联?

本文档中,有使用nltk.collocations.BigramAssocMeasures()BigramCollocationFindernltk.collocations.TrigramAssocMeasures()和的示例TrigramCollocationFinder

有示例方法 find nbest 基于 pmi 用于二元组和三元组。例子:

我知道BigramCollocationFinderTrigramCollocationFinder继承自AbstractCollocationFinder.WhileBigramAssocMeasures()TrigramAssocMeasures()继承自NgramAssocMeasures.

我如何使用 4-gram、5-gram、6-gram、....、n-gram 中的方法(例如)(例如轻松使用二元组和三元组)nbest()AbstractCollocationFinderNgramAssocMeasures

我应该创建继承的类AbstractCollocationFinder吗?

谢谢。

0 投票
1 回答
1892 浏览

python - 我可以让 BigramCollocationFinder (nltk) 遵守文档边界吗?

我正在使用 NLTK 对许多不同的文档进行一些分析。这些文档的内容意味着它们都倾向于以相同的标记结束和开始。

我将文档标记为列表列表,然后使用 BigramCollocationFinder.from_documents 创建查找器。当我按原始频率对 ngram 进行评分时,我注意到最常见的是结束字符/开始字符。这表明它正在将所有文档运行到一个文件中,并在整批文件中找到我不想要的 ngram。

代码示例:

这将产生以下输出:

ngram }{ 出现在它不应该作为 }{ 永远不会出现在彼此旁边的列表中。

是否有其他方法可以解决此问题以避免 }{ 出现在列表中?

0 投票
2 回答
8334 浏览

python - 如何使用 NLTK 搭配获得三元组的 PMI 分数?Python

我知道如何使用 NLTK 获得二元组和三元组搭配,并将它们应用到我自己的语料库中。代码如下。

我唯一的问题是如何用 PMI 值打印出 bigram?我多次搜索 NLTK 文档。要么我错过了一些东西,要么它不存在。

0 投票
1 回答
59 浏览

php - 转换 mysql 字符

我有一个似乎在 latin1_swedish 上的数据库。我需要向它添加更多文本。新文本包含一些巴西词。例子:

罗非鱼

卡沙萨

...数据库中的旧文本也有这些词,但它是这样的:

罗非鱼

PHP 文件正在使用正确的重音将其转换为真实的单词。如何添加这些文本并保持 PHP 转换文件?例如,在我的表上添加 tilápia,mysql 将其保留为 tilápia。

谢谢,希望不要混淆。

0 投票
3 回答
11043 浏览

python - 特定单词的 NLTK 搭配

我知道如何使用 NLTK 获得二元组和三元组搭配,并将它们应用到我自己的语料库中。代码如下。

但是我不确定(1)如何获取特定单词的搭配?(2) NLTK 是否有基于对数似然比的搭配指标?

0 投票
10 回答
94610 浏览

python - 用 Python 在句子列表中形成单词的 Bigrams

我有一个句子列表:

我需要形成二元对并将它们存储在一个变量中。问题是当我这样做时,我得到的是一对句子而不是单词。这是我所做的:

产生

火车站和城堡酒店不能合二为一。我想要的是

第一句的最后一个词不能和第二句的第一个词合并。我应该怎么做才能让它工作?

0 投票
2 回答
1630 浏览

python - NLTK:为单词查找大小为 2k 的上下文

我有一个语料库,我有一个词。对于语料库中单词的每次出现,我想获得一个列表,其中包含单词之前的 k 个单词和单词之后的 k 个单词。我在算法上做得很好(见下文),但我想知道 NLTK 是否为我错过的需求提供了一些功能?

0 投票
1 回答
70 浏览

view - CouchDB:并置的视图和键

在我的沙发上,我有这样的文档对:

对于作者来说,这些对中的几个可以存在。

我现在需要一个视图,它会给我以某种方式耦合的信息,author伴随着info.

使用视图搭配我创建了以下视图:

我得到这样的结果:

首先,我使用了一个 reduce 函数将两者合并为一个,但是在计时之后,在本地对它们进行分组要快得多。

但是,按照现在的方式,我无法通过“作者名”查询此视图。尤其不是因为info没有作者名。

所以我认为有一些解决方案:

  1. 使用带有分组的reduce函数并操作键,以便显示作者(我什至不知道是否可以操作分组键)
  2. 获取所有行,在本地对它们进行分组,然后过滤我正在寻找的作者(可能太多不需要的开销)
  3. 拥有多个视图并执行 2 个查询。一种是获取 DOCID,然后查询 DOCID。
  4. 巧妙地查询并置视图:以一种有效的方式将 Authorname 包含到键和查询类型中,但我也不认为这是可能的,因为对 Authorname 的查询将排除实际的info.

那么你会建议继续做些什么呢?是的,信息是分开的是有原因的(几个Final文档可以与同一个Task文档相关,因此具有相同的信息)

最好的

编辑 提供的解决方案确实回答了我的问题,但我使用我的视图并将结果分组到我的代码(Django 视图)中,结果非常快!

0 投票
1 回答
146 浏览

python - 从 NLTK 搭配中查找三元组时出现无法识别的单词

我正在使用 NLTK Collocations 来查找三元组,而“ training_set ”是一个包含多行文本的字符串。

但我得到的输出为

这是一些编码问题吗?我如何获得正常的英语单词?

0 投票
1 回答
2171 浏览

python - nltk四边形搭配查找器

我看到多个问题和答案说 NLTK 搭配不能超出双​​和三克。

例如这个 - 如何在 python nltk 中获得 n-gram 搭配和关联?

我看到有一个东西叫做

nltk.QuadgramCollocationFinder

如同

nltk.BigramCollocationFinder 和 nltk.TrigramCollocationFinder

但同时不到类似的东西

nltk.collocations.QuadgramAssocMeasures()

类似于 nltk.collocations.BigramAssocMeasures() 和 nltk.collocations.TrigramAssocMeasures()

nltk.QuadgramCollocationFinder 的目的是什么,如果它不可能(没有黑客)找到双元和三元之外的 n-gram。

也许我错过了一些东西。

谢谢,

根据 Alvas 的输入添加代码并更新问题,现在可以使用