问题标签 [udpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
112 浏览

r - 如何将主题标签及其单词保留为单个标记

如果我想保持主题标签符号及其单词完整(即#company 而不是# and company),如何更改默认设置

我得到的是 # 和 company 作为两个不同的令牌。我想要#company 作为一个单一的令牌。尽管我将@mr_jones 作为单个令牌。

0 投票
0 回答
93 浏览

text - 具有非常不同的答案长度的文本挖掘响应

我有一个响应数据集,要求人们回答一组问题。只有一列文本数据需要处理。

我的挑战是;只有极少数的受访者真正写过长篇文章,我发现这些文章很容易处理并从中获得洞察力。大多数其他响应通常都很短,例如“有点”、“是”、“否”、“更大范围”。同样,也无法按顺序对其进行扩展,因为它没有逻辑顺序。

我已经能够使用较长的文本响应来获得对情感的洞察,提取关键字和短语并应用机器学习,例如 RAKE 和 PMI。我将 UDPIPE 库与 R 一起使用。

但是,对于较短的“几句话”回复,我发现很难从中获得洞察力。

对于我目前遇到的问题,是否还有其他机器学习技术?还是我需要尝试任何 NLP 技术?

0 投票
1 回答
303 浏览

r - R - 将每篇文章的 udpipe RAKE 关键字解析回数据帧

我正在尝试使用 udpipe 的 RAKE 在数据帧中为每个文档生成 25 个 RAKE 令牌的列表,并将这些令牌(加上一个简单的 str_count)写回数据帧。我构造了一个 for 循环来处理,但是我将相同的结果写入每一行,而不是每一行的不同结果。

安装和使用的软件包有 udpipe、dplyr、stringi、stringr、data.table。

预期的结果应该是这样的:

目前的结果是:

我究竟做错了什么?

谢谢!

0 投票
1 回答
175 浏览

r - 如何使用udpipe获得动词的将来时

我有大量的医疗报告。我正在尝试确定将采取未来行动的句子,例如'I will prescribe a medication'

我正在使用udpipe的english-ewt模型,我也尝试过english-gum,但都没有给我动词的未来时态——只是Tense过去/前

我如何确定未来的句子与上面的句子一样udpipe(我正在使用它,因为我在安装rjavawhichopenNLPNLPrequire 时遇到了麻烦)。如果没有通过 udpipe 给出的动词的将来时形式,是否有其他方法可以使用 udpipe 输出的 POS 标签等来确定我想要什么?

0 投票
0 回答
250 浏览

r - 在 R 中使用 LDA 按组进行主题建模

我被困在一个问题上。我正在尝试使用 LDA 将句子分类为主题。我已经做到了,但问题是:LDA 正在处理整个数据集,并为我提供整个数据集的主题术语。我想在数据集中按组获取主题术语。

所以我的数据看起来像这样:

我运行以下代码来获取主题

我得到的结果如下

我想通过Division_name得到它们中的每一个

我想要的结果

模拟数据集

0 投票
2 回答
920 浏览

python - spacy-udpipe 与 pytextrank 从非英文文本中提取关键字

我一直在使用带有 spacy 和英文模型的 pytextrank ( https://github.com/DerwenAI/pytextrank/ ) 来提取关键字——效果很好!

现在我需要处理非英文文本,我找到了 udpipe ( https://github.com/TakeLab/spacy-udpipe ) 但它不能开箱即用......之后

我得到带有 POS 和 DEP 标签的令牌,但doc._.phrases(doc.noun_chunks也是空的) 中没有任何内容,并且nlp.pipe_names只是 ['textrank']

我应该在 spacy 的管道中添加什么以使其正常工作?我假设 pytextrank 需要 noun_chunks ......

任何提示或建议在哪里看都会对我有所帮助 - 谢谢!

0 投票
1 回答
282 浏览

r - udpipe (keywords_rake) 如何将关键字链接到它们从中提取的文档

我正在使用 udpipe 包(用于 R)中的函数 keywords_rake 从一堆文档中提取关键字。

数据看起来像这样

(每一行是一个单独的文档)

但是输出不包括关键字的来源,并提供所有文档的关键字列表

如何将这些关键字链接到它们来自的相应文档?(即每个文档都有一个关键字列表)

像这样的东西:

0 投票
0 回答
79 浏览

r - 在处理 data.table 时,我可以强制执行一致的返回数据类型吗?

我正在(尝试)用 udpipe 包注释一个相当大的数据集。

为了提高效率,我将数据放在 data.table 中,并以较小的批次循环数据集。像这样(最后的数据样本):

所以:取ft_speeches,将doc_idtext列传递给udpipe(),按 分组.groups

我正在处理从 1953 年到现在的丹麦议会演讲,其中有超过 800,000 篇。如此庞大的数据。.groups是数据收集的副产品,其中数据被分 100 批处理。

我的代码在第二组中途出错:

所以,我认为这是 data.table 高效的部分原因 - 它为所有组预先分配列类型。

如果我理解正确,问题是 udpipe 注释有时会在被认为是双精度的列中返回整数。我可以对此做些什么吗?操纵组操纵的输出?

udpipe应该只返回整数或字符,每?udpipe

列paragraph_id、sentence_id、term_id、start、end 是整数,其他字段是UTF-8 编码的字符数据。

我想我可以在一个循环中一次做一个组,然后写入磁盘或在磁盘上执行data.table::rbindlist

让 udpipe 立即释放所有数据会占用我所有的 RAM,并最终使我的计算机崩溃。

数据样本(在这种情况下,我只使用doc_idand text):

0 投票
1 回答
117 浏览

text-mining - 如何在 R 中找到特定术语与 udpipe 的共现?

我是 udpipe 软件包的新手,我认为它对社会科学有很大的潜力。

我目前的一个项目是研究新闻文章如何写网络和网络(即人的种类,而不是计算机网络)。为此,我从荷兰网站上搜索了 500 篇带有搜索字符串“network”的文章,以获取有关灵活经济的新闻(这是有关例如自雇职业的新闻和讨论的主要来源)。数据是荷兰语的,但这对我的问题无关紧要。

我喜欢使用 udpipe 的目的是找出在什么上下文中使用了名词“netwerk”或动词“netwerken”。我试图kwic得到这个(来自quanteda),但这只是给了我“它发生的窗口。

我想将引理 (netwerk/netwerken) 与同现运算符一起使用,但没有指定第二个术语,并且只限于该特定引理,而不是计算所有同现。

这可能吗,怎么做?一个普通的语言示例:在我的网络中,我通过 Facebook 联系了很多人 -> 我想同时出现网络和联系(动词)我通过我的网络找到了我的大多数客户 -> 这里我想“我的网络”+“找到我的客户”。

非常感谢任何帮助!

0 投票
1 回答
146 浏览

model - SpaCy-UDpipe 加载自定义模型 colab

我正在尝试将自定义 spacy-udpipe 模型加载到 google colab 中。我试过了


但我收到以下错误消息: NameError: name 'udpipe_download_model' is not defined。

任何人都可以帮忙吗?谢谢