问题标签 [udpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
186 浏览

r - udpipe_accuracy() 总是给出相同的错误“CoNLL-U 行 '....' 不包含 10 列!”

这是关于 NLP 的 R 包udpipe。我正在使用它对文本文件进行标记、标记、词形还原和执行依赖项解析。

我不确定该conllu功能需要哪个模板

我加载了一个 10 列的 CSV 文件,但错误仍然存​​在。

我无法在这个包上搜索任何关于 SO 的问题,也没有 udpipe 的标签。

0 投票
1 回答
1304 浏览

r - 如何使用 udpipe 包在 R 中进行“单词聚类”?

udpipe在 R 中使用包来进行一些文本挖掘。我遵循了本教程:https ://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatisation.html#nouns__adjectives_used_in_same_sentence但现在,我有点卡住了。

实际上,我想将两个以上的词组合在一起,以便能够识别例如“从黄昏到黎明”之类的关键表达。

所以,我想知道,基于上面tuto中的图表,是否有可能做一种聚类算法来“合并”那些强烈且频繁的词!- 联系在一起?如果是,如何?

还有其他方法吗?

谢谢

0 投票
2 回答
569 浏览

r - 根据引理在语料库中查找单词

kwic我正在使用 R进行文本挖掘,我遇到了一个我想解决的“问题” quanteda...

corp2语料库在哪里。trous oblongs是法语,它是复数形式。但是,当我这样做时,我只会得到包含复数表达式的报告。我还想考虑单数形式的出现trou oblong(反之亦然,如果我最初输入代码trou oblong,也得到复数形式)。

我知道这个udpipe包,由于它的udpipe_annotate功能:https ://www.rdocumentation.org/packages/udpipe/versions/0.3/topics/udpipe_annotate ,能够提取文本中单词的引理。

所以我想知道是否udpipe有一个功能可以设法找到语料库中具有相同引理的单词的所有出现,或者是否可以使用kwic.

提前致谢

0 投票
1 回答
288 浏览

rasa-nlu - 是否可以通过 Rasa-NLU 中的 udpipe 修改 spaCy?

我正在测试内部使用 spaCy 的 Rasa-NLU 几天。我对葡萄牙语感到非常失望。为了弄清楚如何改进训练数据,我发现了一个将 spaCy 与 udpipe 进行比较的出色脚本,可以在此链接和下图中进行检查。

在此处输入图像描述

我想知道我是否可以继续使用 Rasa-NLU,但将引擎 spaCy 替换为 udpipe?

0 投票
1 回答
662 浏览

r - 使用 PoS 标签的文本相似度

我想通过仅使用特定 POS 标签的单词来计算文本相似度。目前我正在使用余弦方法计算相似度,但它没有考虑 POS 标记。

在上面的示例中,“X 射线右腿动脉”不应映射到“MRI 右腿动脉”,因为这是两种不同的服务类别。不幸的是,我没有明确的服务分类。我只有服务文本。是否有可能通过使用 POS 标记,我可以更加重视这些词——“X 射线”、“咨询”、“腿”和“动脉”。代码中提到的服务只是一个示例。实际上,我有超过 10K 的服务。我探索了用于 PoS 标记的 udpipe 包,但没有取得多大成功。

0 投票
1 回答
1025 浏览

r - 在 R 编程 Shiny App 中,inherits(x, "character") 不是 TRUE

我正在创建 Shiny App,目的是输入文本文件并使用 udpipe 库需要创建 wordcloud、annoate 等...

运行应用程序时,我收到“inherits(x, "character") is not TRUE"。问题来自“注释”选项卡,因为我试图从 Server.R 文件返回数据表

ui.R 代码:

服务器.R代码

我正在尝试在 output$Annotate 变量中返回数据表。但它不能正常工作。

0 投票
1 回答
383 浏览

r - 将 content_transformer 与 udpipe_annotate 一起使用

所以我刚刚发现 udpipe 有一种很棒的显示相关性的方式,所以我开始研究它。如果我在导入后在 csv 文件上使用它并且不对它进行任何更改,则该站点的代码可以完美运行。

但是一旦我创建了一个语料库并更改/删除了一些单词,我的问题就会出现。我不是 R 方面的专家,但我用谷歌搜索了很多,我似乎无法弄清楚。

这是我的代码:

一旦我将导入的文件转换为语料库,它就会失败。任何人都知道我如何仍然可以执行 tm_map 函数然后运行 ​​udpipe 代码?

提前Tnx!

0 投票
2 回答
1098 浏览

r - 使用R中的udpipe提取数据框每一行中的关键字

我正在使用 R 包udpipe在我的数据框中提取关键字。让我们从包中包含的一些数据开始:

如果我们查看结构,我们会看到它包含 1500 条评论(行)和 4 列。

在学习本教程时,我可以一起提取所有数据框的关键字。出色的。

但是,我的要求是在每一行中提取关键字,而不是整个数据框。

我承认,对于这个示例,它没有多大意义,因为只有一列带有文本 ( feedback)。但是,在我的真实示例中,我有很多带有文本的列。

所以,我想在数据框的每一行中提取关键字。所以如果我们在这个例子中提取关键字,我想得到 1500 组关键字,每组对应每一行

我该怎么做?

更新和示例

按照这两个步骤,我们得到了所有数据框的关键字。但是,我想在数据框的每一行中获取关键字。

第一步

第二步

0 投票
1 回答
186 浏览

r - 在R中使用udpipe提取关键字时的for循环

让我们从一个可重现的例子开始,它是一个key由 8 列和 3 行组成的数据框:

我想独立提取每一列的关键字。为此,我使用udpipeR 中的包。

因为我想运行每一列中的函数,所以我运行了一个for循环。

在开始之前,我们以英语为参考创建模型(有关更多信息,请参阅此链接):

理想情况下,我的最终输出将是一个包含 8 列的数据框,并且提取了许多行作为关键字。

我尝试了两种方法:

方法一:使用dplyr

方法二:

输出

在这两种情况下,或者我得到一些错误或者输出不是预期的。

如前所述,我期望的输出是一个数据框,其中 8 列在行中表示关键字

任何的想法?

0 投票
3 回答
1083 浏览

r - 使 udpipe_annotate() 更快

我目前正在处理一个文本挖掘文档,我想从我的文本中提取相关关键字(请注意,我有很多很多文本文档)。

我正在使用 udpipe 包。一个很棒的 Vignette 在线 ( http://bnosac.be/index.php/blog/77-an-overview-of-keyword-extraction-techniques )。一切正常,但是当我运行代码时,部分

真的,真的很慢(尤其是当你有很多文本时)。有谁知道我如何更快地获得这部分?解决方法当然很好。

提前谢谢了!