问题标签 [korpus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
406 浏览

r - treetager - Linux - 错误:找不到指定的文件:

嗨,我正在使用 treetager 从数据中提取名词,但是我收到以下错误消息。

这是我的 R 脚本

错误:

0 投票
1 回答
669 浏览

r - Treetagger koRpus 包错误

我正在尝试使用 koRpus 包中的 Treetag 函数。我使用的代码是

但我一直遇到以下错误。

我该怎么办 ?

0 投票
0 回答
50 浏览

r - koRpus treetag 上的字符串替换

功能

允许我用标记“不是”来标记和替换“不是”

我试图在treetag函数的函数中做同样的事情。

0 投票
1 回答
1160 浏览

r - 使用 R 计算多个文件的可读性分数

我想使用 koRpus 包为几个 txt.files 计算 R-3.3.2(R-Studio 3.4 for Win)中的可读性分数,并将结果保存到 excel 或 sqllite3 或 txt。现在我只能计算一个文件的可读性分数并将它们打印到控制台。我尝试使用循环目录改进代码,但它无法正常工作。

0 投票
1 回答
87 浏览

r - 从 tm 对象移动到 koRpus 对象,反之亦然

我从 tm 对象移动到 koRpus 对象时遇到问题。我必须使用 tm 工具对语料库进行规范化,使用 koRpus 对结果进行词形还原,然后返回 tm 对结果进行分类。为此,我必须将 tm 对象转换为 R 数据帧,然后将其转换为 excel 文件,然后转换为 txt 文件,最后转换为 koRpus 对象。这是代码:

然后我需要向后做这一切才能回到 tm. 这是代码:

有没有更优雅的解决方案可以在不离开 R 的情况下做到这一点?我非常感谢任何帮助或反馈。

顺便说一句,有谁知道如何询问 tm VCorpus 中的哪个文档包含特定令牌?我通常将语料库转换为数据框来识别文档。有没有办法在 tm 中做到这一点?

0 投票
2 回答
577 浏览

r - 将 koRpus 函数树标记器与 R 一起使用

由于我是尝试使用 korpus 与 R 一起工作的初学者,因此任何建议都会很棒。

我在我的 Windows 机器上安装了 TreeTagger,然后我安装了 koRpus 包。我的问题是如何使用带有 R 的 koRpus 使用 treetagger?

有什么要添加的设置吗?

我尝试使用此命令:

非常感谢您的帮助

最好的

0 投票
1 回答
739 浏览

r - Treetag 包 koRpus R

首先,对不起我的英语,我的英语说得很糟糕。

所以,我有一个关于 R 上 koRpus 包中的 treetag 函数的问题。我想对文本进行词形还原,使用 Treetagger 对我来说没问题。我使用了treetag函数:

我获得了令牌,标签...

但是在此 Lemmatization 之后,我想获得标记的文本,但我没有解决方案来做到这一点。我想在我的文本中用他的引理替换每个标记。

那么,你有我的解决方案吗?

非常感谢 !

0 投票
3 回答
352 浏览

r - 使用 R 和 koRpus 编译和分析语料库

我是一名迷失在数据科学中的文学学生。我正在尝试分析一个包含 70 个 .txt 文件的语料库,它们都在一个目录中。

我的最终目标是获得一个包含文件名(或类似内容)、句子和字数、Flesch-Kincaid 可读性分数和 MTLD 词汇多样性分数的表格。

我找到了 koRpus 和 tm 包(以及 tm.plugin.koRpus),并试图了解它们的文档,但还没有走多远。在 RKward IDE 和 koRpus-Plugin 的帮助下,我设法一次为一个文件获取所有这些度量,并且可以手动将这些数据复制到一个表中,但这非常麻烦并且仍然需要大量工作。

到目前为止,我尝试的是这个命令来创建我的文件语料库:

但我总是得到错误:

如果有人可以帮助 R 的绝对新手,我将非常感激!

0 投票
0 回答
210 浏览

r - koRpus 包在 macOS 上使用 R (RStudio) 中的 TreeTagger

我正在探索 macOS 上 R 中的 koRpus 包,试图在以下对象上使用treetag函数:

文字 [1] “因为我不能为死亡停下来-” “他好心为我停下来-”
[3] “马车停着,但只有我们自己-” “和不朽”

使用以下语法

> tagged.text <- treetag(as.vector(paste(text, collapse = '')), format = "obj", debug = TRUE)

我收到以下错误

矩阵中的错误(unlist(strsplit(tagged.text,“\t”)),ncol = 3,byrow = TRUE,:“数据”必须是向量类型,为“NULL”

当我在其等效项上尝试上面的加粗命令时,我得到了这个

matrix(unlist(strsplit(paste(text, collapse = ''), "\t"))) [,1] [1,] "因为我无法为死神停下来-他好心地为我停下来-马车举行了,但是只有我们自己——和不朽”

我的工作空间如下

sessionInfo() R 版本 3.4.2 (2017-09-28) 平台:x86_64-apple-darwin15.6.0 (64-bit) 运行于:macOS High Sierra 10.13.1

矩阵产品:默认 BLAS:/System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib LAPACK:/Library/Frameworks/R.framework/Versions/3.4/Resources /lib/libRlapack.dylib

语言环境:[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

附加的基础包:[1] stats graphics grDevices utils
datasets methods base

其他附加软件包:[1] quanteda_0.99.12 koRpus_0.10-2
data.table_1.10.4-3 scales_0.5.0 [5] purrr_0.2.4
readr_1.1.1 tidyr_0.7.2 tibble_1.3.4 [9] tidyverse_1.1.1 gutenbergr_0.1.3 ggplot2_2 .2.1
stringr_1.2.0 [13] dplyr_0.7.4 janeaustenr_0.1.5
tidytext_0.1.4

通过命名空间加载(未附加):[1] reshape2_1.4.2
Have_1.1.0 lattice_0.20-35 colorspace_1.3-2 [5] htmltools_0.3.6 SnowballC_0.5.1 yaml_2.1.14
rlang_0.1.2 [9] foreign_0.8 -69 glue_1.2.0
modelr_0.1.1 readxl_1.0.0 [13] bindrcpp_0.2
bindr_0.1 plyr_1.8.4 munsell_0.4.3 [17] gtable_0.2.0 cellranger_1.1.0 rvest_0.3.2
psych_1.7.8 [21] evaluate_0.10.1 knitr_1.17
forcats_0.2.0 parallel_3.4.2 [25] broom_0.4.2
tokenizers_0.1.4 Rcpp_0.12.13 backports_1.1.1 [29] RcppParallel_4.3.20 jsonlite_1.5 fastmatch_1.1-0
mnormt_1.5-5 [33] hms_0.3 digest_0.6.12
stringi_1.1.5 bookdown_0.5 [37] grid_3.4.2
rprojroot_1.2 tools_3.4.2 magrittr_1.5 [41] lazyeval_0.2.1 pkgconfig_2.0.1 Matrix_1.2-11 xml2_1.1.1 [45] lubridate_1.7.1 assertthat_0.2.0 rmarkdown_1.6
httr_1.3.1 [49] R6_2.2.2 nlme_3.1-131
编译器_3.4.2

0 投票
1 回答
85 浏览

r - getting R to recognize a file full of Word files for koRpus analysis

I need some help with loading text-file data into R for analysis with packages like koRpus.

The problem I am facing is getting R to recognize a folder full of Word files (about 4,000) as data which I can then make koRpus perform analyses like Coleman-Liau indexing. If at all possible, I prefer to make this work with Word files. The key problem is the struggle to cause R to recognize the text (Word) files in bulk (that is, all at the same time) so that koRpus can do its thing with those files.

My attempts to make this work have all been in vain, but I know that packages like koRpus would be limited in usefulness if there were no way to get the package to do its work on a large collection of files all at once.

I hope this problem will make sense to someone, and that there is a tenable solution to it.

Thanks, Gordon