问题标签 [udpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何将主题标签及其单词保留为单个标记
如果我想保持主题标签符号及其单词完整(即#company 而不是# and company),如何更改默认设置
我得到的是 # 和 company 作为两个不同的令牌。我想要#company 作为一个单一的令牌。尽管我将@mr_jones 作为单个令牌。
text - 具有非常不同的答案长度的文本挖掘响应
我有一个响应数据集,要求人们回答一组问题。只有一列文本数据需要处理。
我的挑战是;只有极少数的受访者真正写过长篇文章,我发现这些文章很容易处理并从中获得洞察力。大多数其他响应通常都很短,例如“有点”、“是”、“否”、“更大范围”。同样,也无法按顺序对其进行扩展,因为它没有逻辑顺序。
我已经能够使用较长的文本响应来获得对情感的洞察,提取关键字和短语并应用机器学习,例如 RAKE 和 PMI。我将 UDPIPE 库与 R 一起使用。
但是,对于较短的“几句话”回复,我发现很难从中获得洞察力。
对于我目前遇到的问题,是否还有其他机器学习技术?还是我需要尝试任何 NLP 技术?
r - R - 将每篇文章的 udpipe RAKE 关键字解析回数据帧
我正在尝试使用 udpipe 的 RAKE 在数据帧中为每个文档生成 25 个 RAKE 令牌的列表,并将这些令牌(加上一个简单的 str_count)写回数据帧。我构造了一个 for 循环来处理,但是我将相同的结果写入每一行,而不是每一行的不同结果。
安装和使用的软件包有 udpipe、dplyr、stringi、stringr、data.table。
预期的结果应该是这样的:
目前的结果是:
我究竟做错了什么?
谢谢!
r - 如何使用udpipe获得动词的将来时
我有大量的医疗报告。我正在尝试确定将采取未来行动的句子,例如'I will prescribe a medication'
我正在使用udpipe的english-ewt模型,我也尝试过english-gum,但都没有给我动词的未来时态——只是Tense
过去/前
我如何确定未来的句子与上面的句子一样udpipe
(我正在使用它,因为我在安装rjava
whichopenNLP
和NLP
require 时遇到了麻烦)。如果没有通过 udpipe 给出的动词的将来时形式,是否有其他方法可以使用 udpipe 输出的 POS 标签等来确定我想要什么?
r - 在 R 中使用 LDA 按组进行主题建模
我被困在一个问题上。我正在尝试使用 LDA 将句子分类为主题。我已经做到了,但问题是:LDA 正在处理整个数据集,并为我提供整个数据集的主题术语。我想在数据集中按组获取主题术语。
所以我的数据看起来像这样:
我运行以下代码来获取主题
我得到的结果如下
我想通过Division_name得到它们中的每一个
我想要的结果
模拟数据集
python - spacy-udpipe 与 pytextrank 从非英文文本中提取关键字
我一直在使用带有 spacy 和英文模型的 pytextrank ( https://github.com/DerwenAI/pytextrank/ ) 来提取关键字——效果很好!
现在我需要处理非英文文本,我找到了 udpipe ( https://github.com/TakeLab/spacy-udpipe ) 但它不能开箱即用......之后
我得到带有 POS 和 DEP 标签的令牌,但doc._.phrases
(doc.noun_chunks
也是空的) 中没有任何内容,并且nlp.pipe_names
只是 ['textrank']
我应该在 spacy 的管道中添加什么以使其正常工作?我假设 pytextrank 需要 noun_chunks ......
任何提示或建议在哪里看都会对我有所帮助 - 谢谢!
r - udpipe (keywords_rake) 如何将关键字链接到它们从中提取的文档
我正在使用 udpipe 包(用于 R)中的函数 keywords_rake 从一堆文档中提取关键字。
数据看起来像这样
(每一行是一个单独的文档)
但是输出不包括关键字的来源,并提供所有文档的关键字列表
如何将这些关键字链接到它们来自的相应文档?(即每个文档都有一个关键字列表)
像这样的东西:
r - 在处理 data.table 时,我可以强制执行一致的返回数据类型吗?
我正在(尝试)用 udpipe 包注释一个相当大的数据集。
为了提高效率,我将数据放在 data.table 中,并以较小的批次循环数据集。像这样(最后的数据样本):
所以:取ft_speeches
,将doc_id
和text
列传递给udpipe()
,按 分组.groups
。
我正在处理从 1953 年到现在的丹麦议会演讲,其中有超过 800,000 篇。如此庞大的数据。.groups
是数据收集的副产品,其中数据被分 100 批处理。
我的代码在第二组中途出错:
所以,我认为这是 data.table 高效的部分原因 - 它为所有组预先分配列类型。
如果我理解正确,问题是 udpipe 注释有时会在被认为是双精度的列中返回整数。我可以对此做些什么吗?操纵组操纵的输出?
udpipe
应该只返回整数或字符,每?udpipe
:
列paragraph_id、sentence_id、term_id、start、end 是整数,其他字段是UTF-8 编码的字符数据。
我想我可以在一个循环中一次做一个组,然后写入磁盘或在磁盘上执行data.table::rbindlist
。
让 udpipe 立即释放所有数据会占用我所有的 RAM,并最终使我的计算机崩溃。
数据样本(在这种情况下,我只使用doc_id
and text
):
text-mining - 如何在 R 中找到特定术语与 udpipe 的共现?
我是 udpipe 软件包的新手,我认为它对社会科学有很大的潜力。
我目前的一个项目是研究新闻文章如何写网络和网络(即人的种类,而不是计算机网络)。为此,我从荷兰网站上搜索了 500 篇带有搜索字符串“network”的文章,以获取有关灵活经济的新闻(这是有关例如自雇职业的新闻和讨论的主要来源)。数据是荷兰语的,但这对我的问题无关紧要。
我喜欢使用 udpipe 的目的是找出在什么上下文中使用了名词“netwerk”或动词“netwerken”。我试图kwic
得到这个(来自quanteda
),但这只是给了我“它发生的窗口。
我想将引理 (netwerk/netwerken) 与同现运算符一起使用,但没有指定第二个术语,并且只限于该特定引理,而不是计算所有同现。
这可能吗,怎么做?一个普通的语言示例:在我的网络中,我通过 Facebook 联系了很多人 -> 我想同时出现网络和联系(动词)我通过我的网络找到了我的大多数客户 -> 这里我想“我的网络”+“找到我的客户”。
非常感谢任何帮助!
model - SpaCy-UDpipe 加载自定义模型 colab
我正在尝试将自定义 spacy-udpipe 模型加载到 google colab 中。我试过了
但我收到以下错误消息: NameError: name 'udpipe_download_model' is not defined。
任何人都可以帮忙吗?谢谢