问题标签 [treetagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
54 浏览

uima - 在 Uima Pipeline 中使用时,TreeTagger 找不到 Charsetname

我想使用 TreeTagger 在 uima 管道内对德语文本进行分块。当我使用 cmd 启动 Tagger 时,分块工作正常,但在管道中使用时会导致以下错误:

我想我应该指定参数“Chunk_Mapping_Location”,但我不知道是哪个文件。分块器通过以下方式初始化:

0 投票
0 回答
45 浏览

python - treetagger 模块返回空列表

我用treetagger做了一个情感分析程序。两周前它运行良好,但现在无法正常运行。

之后,我在一个非常简单的程序中使用了treetagger,它返回“hello world”的标记。它再次无法正常工作。我这样编码:

它返回这个 => [['']]

我完成了“ http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ”中的指令来安装treetagger。我使用 treetagger.py 作为来自https://github.com/miotto/treetagger-python的模块。所有文件都在同一个目录中。

我使用的是 Python 3.6.7,GCC 版本是 7.3.0。我的操作系统是 Kali Linux,在笔记本电脑上具有双启动 Windows 10。

由于 pip 损坏,我将 Kali 格式化并重新安装到我的笔记本电脑上。因此,treetagger 在此操作之前一直在工作。我认为是这样,但我不确定。

问题很简单:“如何正确使用treetagger?” 你怎么看?

提前致谢...

0 投票
1 回答
31 浏览

python - 列表超出范围:我试图查看文件但找不到错误所在

我用我的文件尝试了这个脚本,该文件包含大约 16 列和 5243 行,

第一列分别是键(只是整数 1 到 5243),第二列是句子的值(句子可以很长到段落)

当我尝试使用小文件时,它适用于真正的文件,但它不起作用。

结果

0 投票
1 回答
785 浏览

pandas - Python初学者:在python中预处理法语文本并使用词典计算极性

我正在用python编写一个算法,它处理一列句子,然后给出我的句子列中每个单元格的极性(正或负)。该脚本使用 NRC 情感词典(法语版)中的否定和肯定词列表。我在编写预处理函数时遇到问题。我已经编写了计数函数和极性函数,但是由于我在编写预处理函数时遇到了一些困难,所以我不确定这些函数是否有效。

肯定词和否定词在同一个文件(词典)中,但我分别导出肯定词和否定词,因为我不知道如何按原样使用词典。

我的函数计数出现的正负数不起作用,我不知道为什么它总是给我发送 0。我在每个句子中添加了正字,所以应该出现在数据框中:

堆栈跟踪 :

这是我的 csv_data :第 44、45 行包含肯定词,第 47 行包含更多否定词,但在肯定词和否定词列中,它始终为空,函数不返回词数,最后一列始终为正,而最后一句话是否定的

这里是完整的代码:

如果您还可以查看其余代码是否很好,谢谢。

0 投票
1 回答
765 浏览

python-3.x - 使用 treetaggerwrapper 为每个句子提供提取的引理不起作用:返回单词列表而不是每个句子的单词列表

这是我的函数,它应该对句子列表进行词形还原,但输出是所有单词的列表,而不是每个词形还原句子的列表。

lemmatize 函数的代码

此外,我想在 lemmatize 函数中添加一行代码来检查 index(2) 或 (-1) 是否为空,如果为空,则检索第一个索引处的单词

我想出了这个,但我怎样才能将它与我的 lemmatize 函数结合起来

file_input 中的句子列表

标记文本并打印 sentence_tagging 列表后,我有这个:

第一句话:

整句:

检索引理后,我有一个 word 列表,这不是我所期望的。期望每个句子的列表。

输出 :

预期:将句子的每个单词放在一个字符串中,单词之间有空格。

0 投票
0 回答
39 浏览

python - 填充csv文件时如何抑制/删除字符串句子的引号?

在此处输入图像描述

请参阅下面的脚本结果:我想在填充 csv 时取消括号和引号:

所以任何帮助都会很棒!

0 投票
1 回答
39 浏览

python - 通过 Python 执行 TreeTagger 时,它会以奇怪的方向搜索输入文件

我正在使用以下方法通过 Python 运行 TreeTagger(我知道有一个 Wrapper,但我尝试自己做)subprocess.call()

无论我使用subprocess.call()还是system.os()它总是说:

但是当我通过 Windows Shell 在同一个文件上运行 TreeTagger 时,一切正常。很明显,在 TreeTagger 的 Pearl Script 中找不到这样的文件。swahili_one_word_per_line_tt.txt无论如何,当我通过 Python 调用它时,它为什么要在这个目录中搜索文件?

0 投票
1 回答
53 浏览

python - 使用 treetagger 时出错:列表索引超出范围

我正在使用treetagger来提取词的引理。我有一个功能可以做到这一点,但对于某些单词,它给出了列表范围错误:

有没有办法克服这个错误,似乎“dns-remplace”这个词引起了问题,但我要求如果“|” 找不到,单词会自动发送到字典。错误 :

文本示例:

0 投票
1 回答
209 浏览

google-colaboratory - 如何在 Google Colab 中使用 TreeTagger?

我想使用 TreeTagger 模块在原始语料库上标记 POS 信息。

由于通过 Google Colab 使用 GPU 似乎更快,我安装了 TreeTagger 模块,但 Colab 代码无法找到 TreeTagger 目录。

错误类型是这样的: TreeTaggerError: Can't locate TreeTagger directory (and no TAGDIR specified)

请告诉我应该在哪里上传treetagger文件夹。