问题标签 [collocation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
43 浏览

ignite - 点燃将类似数据加载到特定实例

所以我对这里的 apache ignite 真的很陌生。我想要做的是将具有相似属性的数据加载到单个而不是加载到随机实例中。比如说一些这种形式的数据:

如您所见,上述数据均以 9 结尾。假设我当前正在运行两个 ignite 实例 A 和 B。有什么办法可以将这些以 9 结尾的数据加载到实例 A 或 B 中的任何一个,而不是两者。

请让我知道这是否可行,如果可以,如何实现。提前致谢。

0 投票
0 回答
75 浏览

opennlp - 使用 Apache OpenNLP 查找搭配

我想使用 Apache OpenNLP 框架找到搭配词。通过查看 API,似乎没有用于 Collocation Finder 的 API。如何使用 OpenNLP 找到给定句子中的并置词。例如,在下面给出的句子“Learn to create Machine Learning Algorithms in Python and R from two Data Science Experts. Code templates included at San Jose”中,我想将机器学习算法和数据科学作为一个词。

0 投票
1 回答
968 浏览

python - 从文本语料库中提取给定单词的搭配 - Python

我试图找出如何从文本中提取特定单词的搭配。如:在整个文本语料库中,哪些词与“hobbit”一词具有统计学意义的搭配?我期待一个类似于单词列表(搭配)或元组(我的单词+它的搭配)的结果。

我知道如何使用 nltk 制作二元组和三元组,以及如何只选择包含我感兴趣的单词的二元组或三元组。我正在使用以下代码(改编自这个 StackOverflow 问题)。

这很好用,并给了我一个三元组列表(其中一个元素是我的话),每个都有它们的对数似然值。但我真的不想只从三元组列表中选择单词。我想在我选择的窗口中进行所有可能的 N-Gram 组合(例如,我的单词左 3 和右 3 窗口中的所有单词 - 这意味着 7-Gram),然后检查哪个这些 N-gram 单词具有与我感兴趣的单词配对的统计相关频率。我想为此采用对数似然值。

我的想法是:

1)计算包含我的单词的不同大小的所有N-Gram组合(不一定使用nltk,除非它允许计算大于trigrams的单位,但我没有找到那个选项),

2) 计算组成我的 N-gram 的每个单词的对数似然值,并以某种方式将其与它们出现在 (?) 中的 n-gram 的频率进行比较。这是我迷路的地方......我没有这方面的经验,我不知道如何思考这一步。

有人对我应该怎么做有建议吗?假设我现在使用 nltk 提供的 trigrams 池:有没有人知道如何从那里继续获取我的搜索词附近最相关的词列表?

谢谢

0 投票
1 回答
142 浏览

python-2.7 - 通过 Python 循环从列表数据文件中按 lat-lon 搜索最接近的值并以数组形式保存

我试图以给定的经纬度作为参考,搜索 34 个位置的最近值。30 天的数据文件集(由数千个数据组成)以数组形式排列,具有最近的经纬度和所需数据。如何搭配经纬度以通过循环方法找到相应的所需数据并保存到如下文本文件中:

预期的输出文本文件:

左侧的索引在输出中不是必需的

我使用的脚本如下:

location-new.dat 下给出了 34 个位置的主要参考,如下所示:

问题:输出保存的文本仅出现在 Date1 中,而不出现在其他日期。

0 投票
1 回答
837 浏览

r - 在 R 中使用 quanteda 的 2 个单词短语搭配

这是关于 R 中 quanteda 包中的 textstat_collocations 功能。即使我只请求 2 个单词短语,我在输出中也得到了超过 2 个单词短语。

必要的处理步骤如下(corpus1已经使用corpus函数创建):

当我检查 quantdfm 对象(使用 tail(quantdfm))时,我得到了两个以上的词组。有人可以指导我可能会出错的地方吗?

示例输出如下所示:文档选择_dark_chocolate_can eat_dark_chocolate text43979 0 0 text43980 0 0 text43981 0 0 text43982 0 0 text43983 0 0 text43984 0 0

0 投票
1 回答
38 浏览

r - 从文本/句子中提取搭配

我有大量的句子,每个句子都至少包含一次“well”。我想得到一个列表,其中包含紧邻“well”左侧的两个单词和紧邻“well”右侧的两个单词。例如,在句子中

“很好,他们三个相处得很好”

结果应该是左:“NA”“非常”“get”“on”

正确的:“他们”“所有”“一起”“NA”

我确实怀疑 sub() 会很有用并且是正则表达式,但不知道(确切地)如何组装查询。如何做呢?

0 投票
1 回答
132 浏览

python - 使用 nltk 过滤三元组标签

我想找出语料库的三元组,但限制是三元组中至少有两个词不是专有名词。到目前为止,这是我的代码。

其中propernouns 是语料库中所有专有名词的列表。

问题是我的最后一句话过滤了应该确保我不会超过我的限制的那个。有任何想法吗?

0 投票
2 回答
203 浏览

python - 使用 Python 进行计数的最常见句子提取

我想编写一个 Python 脚本来搜索所有 Excel 行并返回前 10 个最常见的句子。我已经为 txt 文件编写了 ngrams 的基础知识。

该文件包含 csv 文本,其中 dj 最好 4 次,gd 最好 3 次。

输出 -

所以首先,它显示 2 for gd 很酷,我不知道为什么?...然后我想对这个输出进行排序,以便它显示类似这样的内容

然后我希望对excel文件逐行执行此操作。

我真的很陌生,有人能指出我正确的方向吗?

0 投票
1 回答
537 浏览

python - 如何从大量文章(维基百科)中训练短语模型?

我想为法语创建一个大的 gensim 字典,以尝试在主题检测、文本之间的相似性和其他类似的事情上获得更好的结果。所以我计划使用维基百科转储并按以下方式处理它:

  1. 从 frwiki-YYYYMMDD-pages-articles.xml.bz2 中提取每篇文章(完成)
  2. 标记每篇文章(基本上将文本转换为小写,删除停用词和非单词字符)(完成)
  3. 在文章上训练一个短语模型来检测搭配。
  4. 在每篇文章中提取生成的标记。
  5. 用新语料库输入字典(每行一篇词干并置标记化文章)

由于语料库非常大,我没有在内存中存储任何内容并通过 smart_open 访问语料库,但似乎 gensim Phrases 模型消耗了太多 RAM 来完成第三步。

这是我的示例代码:

有没有办法在不冻结我的计算机的情况下完成操作,或者我只需要在我的语料库的一个子集上训练 Phrases 模型?

0 投票
1 回答
422 浏览

python - 使用文本搭配计算 ngram 词频

我想计算已转换为标记的文本文件中特定单词前后三个单词的频率。

我不知道如何搜索字符串“dracula”作为过滤词。我也试过:

期望的输出看起来像这样的计数: 'dracula' 之前的三个单词,排序计数

'dracula' 之后的三个单词,排序计数

中间包含“dracula”的三元组,已排序计数

预先感谢您的任何帮助。