0

我正在使用带有 4Gb RAM 的 32 位操作系统的 Windows 7,由于 32 位限制,只能访问 3Gb。我关闭了其他所有东西,可以看到在开始之前我有大约 1Gb 的缓存和 1Gb 可用。“空闲”内存有所不同,但有时为 0。

使用 quanteda - 我正在使用 textfile() 命令读取 twitter.txt 文件,该命令成功创建了 157Mb corpusSource 对象。当我下一步使用 corpus() 命令将其转换为“语料库”时,R 会遍历它并创建一个非常小的空文件,其中四个元素都包含 0 ..... 代码和输出如下:

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

....关于为什么会发生这种情况的任何见解?

4

1 回答 1

0
textfile()

为您提供字符向量,整个文件只有一个元素。您可能想使用

readlines()

如:

precorp <- readlines(twitterfile)

这将为您提供一个字符向量,其中包含文件中每一行的元素。corpus() 然后在创建语料库时将向量的每个元素视为文档。

于 2016-10-19T02:29:08.600 回答