r - quanteda 没有从 corpusSource 对象创建语料库

Question

我正在使用带有 4Gb RAM 的 32 位操作系统的 Windows 7，由于 32 位限制，只能访问 3Gb。我关闭了其他所有东西，可以看到在开始之前我有大约 1Gb 的缓存和 1Gb 可用。“空闲”内存有所不同，但有时为 0。

使用 quanteda - 我正在使用 textfile() 命令读取 twitter.txt 文件，该命令成功创建了 157Mb corpusSource 对象。当我下一步使用 corpus() 命令将其转换为“语料库”时，R 会遍历它并创建一个非常小的空文件，其中四个元素都包含 0 ..... 代码和输出如下：

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

....关于为什么会发生这种情况的任何见解？

score 0 · Accepted Answer

textfile()

为您提供字符向量，整个文件只有一个元素。您可能想使用

readlines()

如：

precorp <- readlines(twitterfile)

这将为您提供一个字符向量，其中包含文件中每一行的元素。corpus() 然后在创建语料库时将向量的每个元素视为文档。

r - quanteda 没有从 corpusSource 对象创建语料库

1 回答 1

Related

Reference