0

我已将 100 个文本文档的 webCorpus 保存到一个文件中

lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000)
meta(gsrc[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:46:47
Description  : BDliveShutdown Will ..........................
Heading      : Shutdown Will Hinder True Gauge of US Economy - New York Times
ID           : 

当我保存到单个文件中时,阅读

cop <- Corpus(DirSource("/home/ashish/tm_web/23", encoding = "UTF-8"),readerControl = list(language = "lat")) 
meta(cop[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:38:20
Description  : 
Heading      : 
ID           : ABC22.txt
Language     : lat
Origin       : 

是否可以取回已保存语料库的元数据,或者我必须保存 100 个文本文件才能将元(cop)作为元(gsrc)还是我必须按顺序保存元(gsrc [[1]])取回它,任何帮助,谢谢。

4

1 回答 1

1

你可以做这样的事情。我正在使用包中的crude数据tm来展示下面的想法。我想您可以轻松更改代码以将其与您的代码一起使用。

## For each tag , for each corpus , I apply meta
##  to get a list of list (list of tags, for each tag a list of metas)
library(tm)
data("crude")
tags <- c('DateTimeStamp','Heading')
res <- lapply(tags,function(tag)
  lapply(crude,meta,tag))
names(res) <- tags
## I save the list
save(res,file = "meta.RData")

现在我加载保存的元数据,然后做相反的工作。

## load the data 
load("meta.RData")
## for each tag, for each corpus, assign the meta
for(tag in tags){
      meta.tag <- res[[tag]]
      lapply(seq_along(crude),function(y)
             meta(crude[[y]],tag) <- meta.tag[[y]])
}
于 2013-10-23T14:14:14.357 回答