问题标签 [udpipe]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

32 问题

0 投票

1 回答

186 浏览

r - udpipe_accuracy() 总是给出相同的错误“CoNLL-U 行 '....' 不包含 10 列！”

这是关于 NLP 的 R 包udpipe。我正在使用它对文本文件进行标记、标记、词形还原和执行依赖项解析。

我不确定该conllu功能需要哪个模板

我加载了一个 10 列的 CSV 文件，但错误仍然存在。

我无法在这个包上搜索任何关于 SO 的问题，也没有 udpipe 的标签。

r nlp udpipe

2018-02-25T16:21:16.417

0 投票

1 回答

1304 浏览

r - 如何使用 udpipe 包在 R 中进行“单词聚类”？

我udpipe在 R 中使用包来进行一些文本挖掘。我遵循了本教程：https ://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatisation.html#nouns__adjectives_used_in_same_sentence但现在，我有点卡住了。

实际上，我想将两个以上的词组合在一起，以便能够识别例如“从黄昏到黎明”之类的关键表达。

所以，我想知道，基于上面tuto中的图表，是否有可能做一种聚类算法来“合并”那些强烈且频繁的词！- 联系在一起？如果是，如何？

还有其他方法吗？

谢谢

r cluster-analysis text-mining udpipe

2018-03-24T12:51:44.587

0 投票

2 回答

569 浏览

r - 根据引理在语料库中查找单词

kwic我正在使用 R进行文本挖掘，我遇到了一个我想解决的“问题” quanteda...

corp2语料库在哪里。trous oblongs是法语，它是复数形式。但是，当我这样做时，我只会得到包含复数表达式的报告。我还想考虑单数形式的出现trou oblong（反之亦然，如果我最初输入代码trou oblong，也得到复数形式）。

我知道这个udpipe包，由于它的udpipe_annotate功能：https ://www.rdocumentation.org/packages/udpipe/versions/0.3/topics/udpipe_annotate ，能够提取文本中单词的引理。

所以我想知道是否udpipe有一个功能可以设法找到语料库中具有相同引理的单词的所有出现，或者是否可以使用kwic.

提前致谢

r text-mining quanteda udpipe

2018-04-07T12:26:56.400

0 投票

1 回答

288 浏览

rasa-nlu - 是否可以通过 Rasa-NLU 中的 udpipe 修改 spaCy？

我正在测试内部使用 spaCy 的 Rasa-NLU 几天。我对葡萄牙语感到非常失望。为了弄清楚如何改进训练数据，我发现了一个将 spaCy 与 udpipe 进行比较的出色脚本，可以在此链接和下图中进行检查。

我想知道我是否可以继续使用 Rasa-NLU，但将引擎 spaCy 替换为 udpipe？

rasa-nlu udpipe

2018-04-10T22:56:41.670

0 投票

1 回答

662 浏览

r - 使用 PoS 标签的文本相似度

我想通过仅使用特定 POS 标签的单词来计算文本相似度。目前我正在使用余弦方法计算相似度，但它没有考虑 POS 标记。

在上面的示例中，“X 射线右腿动脉”不应映射到“MRI 右腿动脉”，因为这是两种不同的服务类别。不幸的是，我没有明确的服务分类。我只有服务文本。是否有可能通过使用 POS 标记，我可以更加重视这些词——“X 射线”、“咨询”、“腿”和“动脉”。代码中提到的服务只是一个示例。实际上，我有超过 10K 的服务。我探索了用于 PoS 标记的 udpipe 包，但没有取得多大成功。

r quanteda udpipe

2018-05-16T19:31:02.273

0 投票

1 回答

1025 浏览

r - 在 R 编程 Shiny App 中，inherits(x, "character") 不是 TRUE

我正在创建 Shiny App，目的是输入文本文件并使用 udpipe 库需要创建 wordcloud、annoate 等...

运行应用程序时，我收到“inherits(x, "character") is not TRUE"。问题来自“注释”选项卡，因为我试图从 Server.R 文件返回数据表

ui.R 代码：

服务器.R代码

我正在尝试在 output$Annotate 变量中返回数据表。但它不能正常工作。

r shiny udpipe

2018-05-28T01:52:07.067

0 投票

1 回答

383 浏览

r - 将 content_transformer 与 udpipe_annotate 一起使用

所以我刚刚发现 udpipe 有一种很棒的显示相关性的方式，所以我开始研究它。如果我在导入后在 csv 文件上使用它并且不对它进行任何更改，则该站点的代码可以完美运行。

但是一旦我创建了一个语料库并更改/删除了一些单词，我的问题就会出现。我不是 R 方面的专家，但我用谷歌搜索了很多，我似乎无法弄清楚。

这是我的代码：

一旦我将导入的文件转换为语料库，它就会失败。任何人都知道我如何仍然可以执行 tm_map 函数然后运行 udpipe 代码？

提前Tnx！

r tm udpipe

2018-08-02T13:04:51.657

0 投票

2 回答

1098 浏览

r - 使用R中的udpipe提取数据框每一行中的关键字

我正在使用 R 包udpipe在我的数据框中提取关键字。让我们从包中包含的一些数据开始：

如果我们查看结构，我们会看到它包含 1500 条评论（行）和 4 列。

在学习本教程时，我可以一起提取所有数据框的关键字。出色的。

但是，我的要求是在每一行中提取关键字，而不是整个数据框。

我承认，对于这个示例，它没有多大意义，因为只有一列带有文本 ( feedback)。但是，在我的真实示例中，我有很多带有文本的列。

所以，我想在数据框的每一行中提取关键字。所以如果我们在这个例子中提取关键字，我想得到 1500 组关键字，每组对应每一行。

我该怎么做？

更新和示例

按照这两个步骤，我们得到了所有数据框的关键字。但是，我想在数据框的每一行中获取关键字。

第一步

第二步

r keyword udpipe

2018-10-23T18:32:33.253

0 投票

1 回答

186 浏览

r - 在R中使用udpipe提取关键字时的for循环

让我们从一个可重现的例子开始，它是一个key由 8 列和 3 行组成的数据框：

我想独立提取每一列的关键字。为此，我使用udpipeR 中的包。

因为我想运行每一列中的函数，所以我运行了一个for循环。

在开始之前，我们以英语为参考创建模型（有关更多信息，请参阅此链接）：

理想情况下，我的最终输出将是一个包含 8 列的数据框，并且提取了许多行作为关键字。

我尝试了两种方法：

方法一：使用`dplyr`

方法二：

输出

在这两种情况下，或者我得到一些错误或者输出不是预期的。

如前所述，我期望的输出是一个数据框，其中 8 列在行中表示关键字

任何的想法？

r for-loop keyword udpipe

2018-10-28T08:27:02.377

0 投票

3 回答

1083 浏览

r - 使 udpipe_annotate() 更快

我目前正在处理一个文本挖掘文档，我想从我的文本中提取相关关键字（请注意，我有很多很多文本文档）。

我正在使用 udpipe 包。一个很棒的 Vignette 在线 ( http://bnosac.be/index.php/blog/77-an-overview-of-keyword-extraction-techniques )。一切正常，但是当我运行代码时，部分

真的，真的很慢（尤其是当你有很多文本时）。有谁知道我如何更快地获得这部分？解决方法当然很好。

提前谢谢了！

r keyword tm udpipe

2018-11-27T13:56:51.530

1 2 3 4 5 6 7 8 9 10

问题标签 [udpipe]

更新和示例

第一步

第二步

方法一：使用dplyr

方法二：

输出

Reference

方法一：使用`dplyr`