问题标签 [treetagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
524 浏览

python - 必须使用 *unicode* 字符串作为要标记的文本,同时使用 TreeTagger 进行标记?

TreeTagger 的网站我创建了一个目录并下载了指定的文件。然后treetaggerwrapper,因此从我尝试测试的文档中尝试如何标记一些文本,如下所示:

然后我收到以下警告:

我在哪里下载英语和西班牙语的缩写文件?,以及如何正确安装 treetaggerwrapper?

0 投票
1 回答
176 浏览

java - Tomcat 无法找到 TreeTagger 二进制文件

我有一个使用 TreeTagger 的 Java 应用程序(Ninja 框架)。TreeTagger 的根目录通过环境变量 TREETAGGER_HOME 设置。当我通过 ninja 运行应用程序时,一切正常,但是,当我将 war 文件部署到 tomcat 时,它无法找到 Tree Tagger 二进制文件:

在异常 (/home/jarino/treetagger/bin/tree-tagger) 中指定的位置是有效的 - 二进制文件存在。为什么Tomcat应用程序看不到现有文件?

0 投票
1 回答
237 浏览

python - 优化熊猫列中的函数计算?

假设我有以下熊猫数据框:

我想创建一个新的 pandas POS 标记列,如下所示:

从文档教程中,我尝试了几种方法。特别:

因此,我创建了这个 POS-tag 单元格函数:

上述函数返回以下内容:

问题在于,获得大量意见需要花费大量时间:

如何使用 pandas 和 treetagger 更有效地执行 pos-tagging?. 我相信这个问题是由于我对 pandas 的了解有限,因为我只是用 treetagger 从 pandas 数据框中快速标记了意见。

0 投票
3 回答
1627 浏览

python - 使用 Python-Treetaggerwrapper 进行分块

Treetagger 可以进行 POS 标记以及文本分块,这意味着提取动词和名词性从句,如下面的德语示例所示:

我试图弄清楚如何使用 Python 中的 Treetaggerwrapper 来做到这一点(因为它比直接调用 Treetagger 更快),但我不知道它是如何完成的。该文档将分块称为预处理,因此我尝试使用它:

但输出只是一个单词列表,没有添加任何信息。我开始认为 Wrapper 所称的 Chunking 与实际标注者所称的 Chunking 不同,但也许我只是遗漏了一些东西?任何帮助,将不胜感激。

0 投票
1 回答
55 浏览

python - “搜索”是否导致“字符串索引超出范围”?(Python)

我正在尝试识别在文本中找到的特定句法模式的所有实例:RB + NN|NNS|NP|PP。也就是说,我正在寻找紧跟在名词之后的副词。我已经使用 TreeTagger 标记了我的文本。标记的文本存储在一个名为“标签”的列表中,如下所示:

这是我的代码的相关部分:

我的问题是第五行产生以下错误:

如果第四行代码是这样的......

...然后返回副词列表。

我真的迷失了1)为什么我会犯这个错误以及2)我该如何解决它。你们可以提供的任何指导将不胜感激。

0 投票
0 回答
50 浏览

r - koRpus treetag 上的字符串替换

功能

允许我用标记“不是”来标记和替换“不是”

我试图在treetag函数的函数中做同样的事情。

0 投票
1 回答
123 浏览

bash - 批处理:如何为文件夹中的所有文件运行程序以及如何使用原始文件名为结果创建输出文件?

我是批处理编程的菜鸟,所以请原谅我这个简单的问题。

我在C:\TTG\FSC中有一个名为 FSC 的文件夹,其中有一千个名为1_A.txt 2_A.txt等的文本文件。我想运行一个程序并将其输出放在另一个文件中,重命名原始文件(例如 1_A.txt 将有一个名为1_A_out.txt的输出文件)。我已经测试过在 1 个文件上运行程序并且它可以工作(只需在命令行tag-french filename上编写)。

那么如何创建用于解析文件夹中每个文件并创建输出文件的 for 循环呢?

我试过这个,但它不起作用

我可以在 ubuntu 中这样写:

但我也想学习如何在 Windows 中执行此操作

0 投票
1 回答
40 浏览

bash - Bash:从格式化为表格的输出中提取单元格

我正在使用 TreeTagger ( http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ ) 从文本中提取名词。我的问题是输出格式如下:

显然没有选项只能获得名词(“NP”和“NN”)。使用 bash,如何获取第一列中第二列中包含“NP”或“NN”的单元格?

0 投票
1 回答
481 浏览

r - 包“TreeTagger”不可用(对于 R 版本 3.3.2)

我尝试安装 TreeTagger 包,但这个版本的 R 是不可能的。我收到以下错误消息:

有什么想法可以帮助我吗?

谢谢

0 投票
1 回答
69 浏览

r - 没有 Python 的词性

我正在尝试对法语文本进行标记,但TreeTagger需要Python在工作时安装在我的 PC 上。出于安全原因,无法安装其他程序(仅限R)。

是否可以使用既不需要也不R需要标记的代码?javaPython