“udpipe”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

112 浏览

r - 如何将主题标签及其单词保留为单个标记

如果我想保持主题标签符号及其单词完整（即#company 而不是# and company），如何更改默认设置

我得到的是 # 和 company 作为两个不同的令牌。我想要#company 作为一个单一的令牌。尽管我将@mr_jones 作为单个令牌。

r token udpipe

2018-12-21T12:20:20.010

0 投票

0 回答

93 浏览

text - 具有非常不同的答案长度的文本挖掘响应

我有一个响应数据集，要求人们回答一组问题。只有一列文本数据需要处理。

我的挑战是；只有极少数的受访者真正写过长篇文章，我发现这些文章很容易处理并从中获得洞察力。大多数其他响应通常都很短，例如“有点”、“是”、“否”、“更大范围”。同样，也无法按顺序对其进行扩展，因为它没有逻辑顺序。

我已经能够使用较长的文本响应来获得对情感的洞察，提取关键字和短语并应用机器学习，例如 RAKE 和 PMI。我将 UDPIPE 库与 R 一起使用。

但是，对于较短的“几句话”回复，我发现很难从中获得洞察力。

对于我目前遇到的问题，是否还有其他机器学习技术？还是我需要尝试任何 NLP 技术？

text nlp analytics sentiment-analysis udpipe

2019-01-04T13:55:05.967

0 投票

1 回答

303 浏览

r - R - 将每篇文章的 udpipe RAKE 关键字解析回数据帧

我正在尝试使用 udpipe 的 RAKE 在数据帧中为每个文档生成 25 个 RAKE 令牌的列表，并将这些令牌（加上一个简单的 str_count）写回数据帧。我构造了一个 for 循环来处理，但是我将相同的结果写入每一行，而不是每一行的不同结果。

安装和使用的软件包有 udpipe、dplyr、stringi、stringr、data.table。

预期的结果应该是这样的：

目前的结果是：

我究竟做错了什么？

谢谢！

r nlp udpipe

2019-02-10T01:00:47.253

0 投票

1 回答

175 浏览

r - 如何使用udpipe获得动词的将来时

我有大量的医疗报告。我正在尝试确定将采取未来行动的句子，例如'I will prescribe a medication'

我正在使用udpipe的english-ewt模型，我也尝试过english-gum，但都没有给我动词的未来时态——只是Tense过去/前

我如何确定未来的句子与上面的句子一样udpipe（我正在使用它，因为我在安装rjavawhichopenNLP和NLPrequire 时遇到了麻烦）。如果没有通过 udpipe 给出的动词的将来时形式，是否有其他方法可以使用 udpipe 输出的 POS 标签等来确定我想要什么？

r udpipe

2019-03-08T16:32:03.017

0 投票

0 回答

250 浏览

r - 在 R 中使用 LDA 按组进行主题建模

我被困在一个问题上。我正在尝试使用 LDA 将句子分类为主题。我已经做到了，但问题是：LDA 正在处理整个数据集，并为我提供整个数据集的主题术语。我想在数据集中按组获取主题术语。

所以我的数据看起来像这样：

我运行以下代码来获取主题

我得到的结果如下

我想通过Division_name得到它们中的每一个

我想要的结果

模拟数据集

r lda topic-modeling udpipe

2019-11-20T08:27:16.727

0 投票

2 回答

920 浏览

python - spacy-udpipe 与 pytextrank 从非英文文本中提取关键字

我一直在使用带有 spacy 和英文模型的 pytextrank ( https://github.com/DerwenAI/pytextrank/ ) 来提取关键字——效果很好！

现在我需要处理非英文文本，我找到了 udpipe ( https://github.com/TakeLab/spacy-udpipe ) 但它不能开箱即用......之后

我得到带有 POS 和 DEP 标签的令牌，但doc._.phrases(doc.noun_chunks也是空的) 中没有任何内容，并且nlp.pipe_names只是 ['textrank']

我应该在 spacy 的管道中添加什么以使其正常工作？我假设 pytextrank 需要 noun_chunks ......

任何提示或建议在哪里看都会对我有所帮助 - 谢谢！

python nlp spacy udpipe pytextrank

2020-01-20T13:33:40.770

0 投票

1 回答

282 浏览

r - udpipe (keywords_rake) 如何将关键字链接到它们从中提取的文档

我正在使用 udpipe 包（用于 R）中的函数 keywords_rake 从一堆文档中提取关键字。

数据看起来像这样

（每一行是一个单独的文档）

但是输出不包括关键字的来源，并提供所有文档的关键字列表

如何将这些关键字链接到它们来自的相应文档？（即每个文档都有一个关键字列表）

像这样的东西：

r nlp udpipe

2020-01-27T16:04:20.967

0 投票

0 回答

79 浏览

r - 在处理 data.table 时，我可以强制执行一致的返回数据类型吗？

我正在（尝试）用 udpipe 包注释一个相当大的数据集。

为了提高效率，我将数据放在 data.table 中，并以较小的批次循环数据集。像这样（最后的数据样本）：

所以：取ft_speeches，将doc_id和text列传递给udpipe()，按分组.groups。

我正在处理从 1953 年到现在的丹麦议会演讲，其中有超过 800,000 篇。如此庞大的数据。.groups是数据收集的副产品，其中数据被分 100 批处理。

我的代码在第二组中途出错：

所以，我认为这是 data.table 高效的部分原因 - 它为所有组预先分配列类型。

如果我理解正确，问题是 udpipe 注释有时会在被认为是双精度的列中返回整数。我可以对此做些什么吗？操纵组操纵的输出？

udpipe应该只返回整数或字符，每?udpipe：

列paragraph_id、sentence_id、term_id、start、end 是整数，其他字段是UTF-8 编码的字符数据。

我想我可以在一个循环中一次做一个组，然后写入磁盘或在磁盘上执行data.table::rbindlist。

让 udpipe 立即释放所有数据会占用我所有的 RAM，并最终使我的计算机崩溃。

数据样本（在这种情况下，我只使用doc_idand text）：

r data.table udpipe

2020-01-29T06:16:00.860

0 投票

1 回答

117 浏览

text-mining - 如何在 R 中找到特定术语与 udpipe 的共现？

我是 udpipe 软件包的新手，我认为它对社会科学有很大的潜力。

我目前的一个项目是研究新闻文章如何写网络和网络（即人的种类，而不是计算机网络）。为此，我从荷兰网站上搜索了 500 篇带有搜索字符串“network”的文章，以获取有关灵活经济的新闻（这是有关例如自雇职业的新闻和讨论的主要来源）。数据是荷兰语的，但这对我的问题无关紧要。

我喜欢使用 udpipe 的目的是找出在什么上下文中使用了名词“netwerk”或动词“netwerken”。我试图kwic得到这个（来自quanteda），但这只是给了我“它发生的窗口。

我想将引理 (netwerk/netwerken) 与同现运算符一起使用，但没有指定第二个术语，并且只限于该特定引理，而不是计算所有同现。

这可能吗，怎么做？一个普通的语言示例：在我的网络中，我通过 Facebook 联系了很多人 -> 我想同时出现网络和联系（动词）我通过我的网络找到了我的大多数客户 -> 这里我想“我的网络”+“找到我的客户”。

非常感谢任何帮助！

text-mining quanteda udpipe

2020-05-04T10:04:45.943

0 投票

1 回答

146 浏览

model - SpaCy-UDpipe 加载自定义模型 colab

我正在尝试将自定义 spacy-udpipe 模型加载到 google colab 中。我试过了

但我收到以下错误消息： NameError: name 'udpipe_download_model' is not defined。

任何人都可以帮忙吗？谢谢

model google-colaboratory spacy udpipe

2020-06-24T09:09:52.797

问题标签 [udpipe]

我正在尝试将自定义 spacy-udpipe 模型加载到 google colab 中。我试过了

Reference