问题标签 [collocation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1387 浏览

java - 带有 ArrayList 的 N-Gram

我正在进行一个项目,我正在分析“ngrams”。我的程序中有一个方法可以创建二元组和三元组。但是,它们只会将连续的相邻单词放在一起,我希望它可以得到所有单词的组合......

例如,

但我希望它得到字符串中所有单词的组合。例如

我怎样才能修改我的方法来产生这样的二元组?

非常感谢您提供的任何帮助。

0 投票
2 回答
299 浏览

python - python中的bi-grams有很多txt文件

我有一个包含 70,429 个文件(296.5 mb)的语料库。我尝试通过使用整个语料库来找到二元语法。我编写了以下代码;

有一个根目录,根目录包含子目录,每个子目录包含许多文件。我所做的是;

我逐一阅读所有文件并将上下文添加到名为allFiles. 最终,我将字符串拆分为标记并调用相关的二元组函数。问题是;

我运行了一天的程序,没有得到任何结果。有没有更有效的方法在包含大量文件的语料库中查找二元组?

任何意见和建议将不胜感激。提前致谢。

0 投票
1 回答
61 浏览

python - 寻找一种优雅的方式来找到两个不同顺序的单词元组列表之间的交集

我认为最好展示一个我正在尝试做的例子。关键是我正在寻找一种优雅的方式。

假设我有两个元组列表:

如果我计算 x 和 y 之间的交集,我会得到一个空集。

我的目标是找出 y 中的两个元素与 x 中的两个元素相同,而我不关心元组的不同顺序。另外我想获取列表y的匹配元素的索引。

对我来说 x[0] 和 y[1] 是相同的(同样,不关心顺序)并且我想要获得的索引是 1,对于 x[1] 和 y[2] 相同,两者都是对我来说也一样,在这种情况下它应该返回索引 2。

关于如何以优雅的方式做到这一点的任何想法?

0 投票
0 回答
40 浏览

python - 来自电话的搭配数据

我每天有数千个电话从语音转换为文本。我尝试使用以下两个选项生成搭配数据

选项1

选项#2

当我使用选项 #1 时,我似乎得到了很好的数据,但这些术语似乎不是很完整,例如,我得到诸如“早上好”、“下午好”、“美国快递”之类的术语......它们是重要的术语但在电话中太常见了。

选项#2 似乎得到了更好的数据..example..它给了我汽车制造商和型号,城市名称..等等......

我想知道是否有人已经使用了这两个选项并决定走哪一条路线,如果是的话,是什么依据。

我确实看到选项 1 中的一些数据可能很好……所以我正在考虑使用这两个选项生成数据……

请问有什么想法吗?

*更多地编辑我的问题 根据我到目前为止所看到的,我最终会从选项 2 中获得大部分结果,并将其与选项 1 中的一些结果合并。我想知道是否有人也可以摆脱一些阐明两者的工作方式有何不同。

0 投票
1 回答
147 浏览

r - 如何计算 R 中两个单词非常接近的文档?

我想计算两个字符串出现在设定距离内的文档,彼此相距不超过 10 个单词。让我们说“德国*”和“战争”。我不想计算它们总共出现的次数,而只想计算该集合出现的文档数(如果出现一次,则计为一个)。

我知道如何计算包含单词的文档。但我不确定是否需要提取 10-grams 并查看这两个单词是否出现然后对每个文档进行计数,或者是否有更有效的方法。

0 投票
2 回答
949 浏览

python - 列出 txt 文件的搭配

我想列出 NLTK 为 Dracula.txt 报告的搭配。我该怎么做呢?我可以通过将其添加到我的语料库中来找到词频。我还有一个变量 DracWords dracWords = mycorpus.words('Dracula.txt'),其中包含 Dracula 文本中的单词。从这里我可以做频率分布,但我现在想要的是列出它的搭配。

任何帮助表示赞赏。

0 投票
2 回答
177 浏览

nlp - 分割与搭配

我正在为我正在实现的两个功能寻找新的想法。

1.) 文本分割功能:

2.) 搭配类型:

不知道该怎么做。我目前唯一的想法是将句子标记化并将无意义的标记与先前的标记或下一个标记组合以形成可以根据一元组进行检查的单词。

这些解决方案对我的要求来说很慢(尤其是第一个)。我想一起使用这些功能。寻找更好的想法。

0 投票
0 回答
149 浏览

python - 罗马数字的 Python NLTK 搭配

由于 nltk 中有数字搭配,例如('RS', '##number##')

我想知道是否有这样的罗马数字说明符,我想将其用于这样的事情:('volume', '##roman number##')

如果没有办法做这样的事情,如果有一种可行的方法将罗马数字转换为十进制以进行句子分割,然后在分割后将文本转换回原始罗马数字,那将很有帮助。

0 投票
0 回答
315 浏览

python - 文档内的搭配,窗口大小

我正在尝试计算文档中的搭配。是否有可能在 NLTK 函数中为其定义窗口大小(就像函数“from_words”一样)?还是用句子或整个文档的边框代替窗口大小?任何提示表示赞赏!或者有没有可以替代 NLTK 的库?

0 投票
0 回答
256 浏览

stanford-nlp - 如何使用 Stanford NLP CollocationFinder 从句子中找到 WordNet 中的单词搭配?

给定一个段落或一个句子。任务是找到所有已经在 WordNet 中硬编码的单词搭配。为了澄清,我试图从给定的文本中找到已经在 WordNet 中的单词搭配,我不是试图根据它们“一起出现”的频率从文本中提取单词搭配。我读了斯坦福 NLP,发现他们的CollectionFinder课程可以胜任这项工作。但是,构造函数是:

我查了一下WordNetConnection,发现是一个界面。在这里 ,我不知道如何找到一种方法来拥有WordNetConnection. 看起来没有类实现WordNetConnection。请推荐任何涵盖CollocationFinderWordNetConnection.