问题标签 [collocation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
151 浏览

javascript - 如何通过 JavaScript/Lodash 中的重复键深度合并两个集合?

我想通过javascript中的重复键合并两个集合,这是示例集合:

这是示例输出:

如何使用 Javascript 实现此输出?我尝试使用 Lodash _.merge 和 _.mergeWith 但输出不是我想要的。我也试过这个链接:Merge JavaScript objects in array with same key answer by @BenG 但它只能合并集合的第一层,这意味着如果我的 collection3 在 Test-Folder_1-Sub_Folder_1 中包含另一个内容,它将被新集合的第一层替换。

0 投票
1 回答
31 浏览

python - 如何将 collocation_list() 重新应用于我的数据?

我花了几个小时试图在我的数据中识别搭配。当我运行 NLTK 示例时

...有用。但是当我此后直接尝试将其应用于我自己的数据时,我收到以下错误消息:

回溯(最后一次调用):文件“<pyshell#95>”,第 1 行,在 Tokens.collocation_list() 中 AttributeError:'list' 对象没有属性 'collocation_list'

这是我的脚本:

0 投票
1 回答
67 浏览

r - quanteda 搭配和词形还原

我正在使用Quanteda 软件包套件来预处理一些文本数据。我想将搭配合并为功能,并决定使用textstat_collocations功能。根据文档,我引用:

标记对象......虽然支持识别标记对象的搭配,但由于从已经标记化的文本中相对不完善的句子边界检测,您将获得更好的字符或语料库对象结果。

这很有意义,所以这里是:

(1) 使用语料库对象生成搭配:

(2) 预处理文本并识别搭配并为下游任务进行词形还原。

(3) 测试结果

特征 数数
1
柱子 1
拥有 1
一种 2
很多 1
1
几乎 1
一世 2
1
感兴趣的 1
1
问题 1
1
头痛 1
如何 1
1
1
处理 1
缺失数据 4

缺失数据”应该是“缺失数据”。

这仅在 df 中的每个文档都是一个单词时才有效。如果我从一开始就使用令牌对象生成我的搭配,我可以使这个过程正常工作,但这不是我想要的。