问题标签 [udpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - udpipe_accuracy() 总是给出相同的错误“CoNLL-U 行 '....' 不包含 10 列!”
这是关于 NLP 的 R 包udpipe
。我正在使用它对文本文件进行标记、标记、词形还原和执行依赖项解析。
我不确定该conllu
功能需要哪个模板
我加载了一个 10 列的 CSV 文件,但错误仍然存在。
我无法在这个包上搜索任何关于 SO 的问题,也没有 udpipe 的标签。
r - 如何使用 udpipe 包在 R 中进行“单词聚类”?
我udpipe
在 R 中使用包来进行一些文本挖掘。我遵循了本教程:https ://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-usecase-postagging-lemmatisation.html#nouns__adjectives_used_in_same_sentence但现在,我有点卡住了。
实际上,我想将两个以上的词组合在一起,以便能够识别例如“从黄昏到黎明”之类的关键表达。
所以,我想知道,基于上面tuto中的图表,是否有可能做一种聚类算法来“合并”那些强烈且频繁的词!- 联系在一起?如果是,如何?
还有其他方法吗?
谢谢
r - 根据引理在语料库中查找单词
kwic
我正在使用 R进行文本挖掘,我遇到了一个我想解决的“问题” quanteda
...
corp2
语料库在哪里。trous oblongs
是法语,它是复数形式。但是,当我这样做时,我只会得到包含复数表达式的报告。我还想考虑单数形式的出现trou oblong
(反之亦然,如果我最初输入代码trou oblong
,也得到复数形式)。
我知道这个udpipe
包,由于它的udpipe_annotate
功能:https ://www.rdocumentation.org/packages/udpipe/versions/0.3/topics/udpipe_annotate ,能够提取文本中单词的引理。
所以我想知道是否udpipe
有一个功能可以设法找到语料库中具有相同引理的单词的所有出现,或者是否可以使用kwic
.
提前致谢
rasa-nlu - 是否可以通过 Rasa-NLU 中的 udpipe 修改 spaCy?
我正在测试内部使用 spaCy 的 Rasa-NLU 几天。我对葡萄牙语感到非常失望。为了弄清楚如何改进训练数据,我发现了一个将 spaCy 与 udpipe 进行比较的出色脚本,可以在此链接和下图中进行检查。
我想知道我是否可以继续使用 Rasa-NLU,但将引擎 spaCy 替换为 udpipe?
r - 使用 PoS 标签的文本相似度
我想通过仅使用特定 POS 标签的单词来计算文本相似度。目前我正在使用余弦方法计算相似度,但它没有考虑 POS 标记。
在上面的示例中,“X 射线右腿动脉”不应映射到“MRI 右腿动脉”,因为这是两种不同的服务类别。不幸的是,我没有明确的服务分类。我只有服务文本。是否有可能通过使用 POS 标记,我可以更加重视这些词——“X 射线”、“咨询”、“腿”和“动脉”。代码中提到的服务只是一个示例。实际上,我有超过 10K 的服务。我探索了用于 PoS 标记的 udpipe 包,但没有取得多大成功。
r - 在 R 编程 Shiny App 中,inherits(x, "character") 不是 TRUE
我正在创建 Shiny App,目的是输入文本文件并使用 udpipe 库需要创建 wordcloud、annoate 等...
运行应用程序时,我收到“inherits(x, "character") is not TRUE"。问题来自“注释”选项卡,因为我试图从 Server.R 文件返回数据表
ui.R 代码:
服务器.R代码
我正在尝试在 output$Annotate 变量中返回数据表。但它不能正常工作。
r - 将 content_transformer 与 udpipe_annotate 一起使用
所以我刚刚发现 udpipe 有一种很棒的显示相关性的方式,所以我开始研究它。如果我在导入后在 csv 文件上使用它并且不对它进行任何更改,则该站点的代码可以完美运行。
但是一旦我创建了一个语料库并更改/删除了一些单词,我的问题就会出现。我不是 R 方面的专家,但我用谷歌搜索了很多,我似乎无法弄清楚。
这是我的代码:
一旦我将导入的文件转换为语料库,它就会失败。任何人都知道我如何仍然可以执行 tm_map 函数然后运行 udpipe 代码?
提前Tnx!
r - 使用R中的udpipe提取数据框每一行中的关键字
我正在使用 R 包udpipe
在我的数据框中提取关键字。让我们从包中包含的一些数据开始:
如果我们查看结构,我们会看到它包含 1500 条评论(行)和 4 列。
在学习本教程时,我可以一起提取所有数据框的关键字。出色的。
但是,我的要求是在每一行中提取关键字,而不是整个数据框。
我承认,对于这个示例,它没有多大意义,因为只有一列带有文本 ( feedback
)。但是,在我的真实示例中,我有很多带有文本的列。
所以,我想在数据框的每一行中提取关键字。所以如果我们在这个例子中提取关键字,我想得到 1500 组关键字,每组对应每一行。
我该怎么做?
更新和示例
按照这两个步骤,我们得到了所有数据框的关键字。但是,我想在数据框的每一行中获取关键字。
第一步
第二步
r - 在R中使用udpipe提取关键字时的for循环
让我们从一个可重现的例子开始,它是一个key
由 8 列和 3 行组成的数据框:
我想独立提取每一列的关键字。为此,我使用udpipe
R 中的包。
因为我想运行每一列中的函数,所以我运行了一个for
循环。
在开始之前,我们以英语为参考创建模型(有关更多信息,请参阅此链接):
理想情况下,我的最终输出将是一个包含 8 列的数据框,并且提取了许多行作为关键字。
我尝试了两种方法:
方法一:使用dplyr
方法二:
输出
在这两种情况下,或者我得到一些错误或者输出不是预期的。
如前所述,我期望的输出是一个数据框,其中 8 列在行中表示关键字
任何的想法?
r - 使 udpipe_annotate() 更快
我目前正在处理一个文本挖掘文档,我想从我的文本中提取相关关键字(请注意,我有很多很多文本文档)。
我正在使用 udpipe 包。一个很棒的 Vignette 在线 ( http://bnosac.be/index.php/blog/77-an-overview-of-keyword-extraction-techniques )。一切正常,但是当我运行代码时,部分
真的,真的很慢(尤其是当你有很多文本时)。有谁知道我如何更快地获得这部分?解决方法当然很好。
提前谢谢了!