r - 获取已保存 WebCorpus 的元数据

Question

我已将 100 个文本文档的 webCorpus 保存到一个文件中

lapply(inspect(gsrc), write, filename, append=TRUE, ncolumns=1000)
meta(gsrc[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:46:47
Description  : BDliveShutdown Will ..........................
Heading      : Shutdown Will Hinder True Gauge of US Economy - New York Times
ID           :

当我保存到单个文件中时，阅读

cop <- Corpus(DirSource("/home/ashish/tm_web/23", encoding = "UTF-8"),readerControl = list(language = "lat")) 
meta(cop[[1]])
Available meta data pairs are:
Author       : 
DateTimeStamp: 2013-10-23 11:38:20
Description  : 
Heading      : 
ID           : ABC22.txt
Language     : lat
Origin       :

是否可以取回已保存语料库的元数据，或者我必须保存 100 个文本文件才能将元（cop）作为元（gsrc）还是我必须按顺序保存元（gsrc [[1]]）取回它，任何帮助，谢谢。

score 1 · Accepted Answer

你可以做这样的事情。我正在使用包中的crude数据tm来展示下面的想法。我想您可以轻松更改代码以将其与您的代码一起使用。

## For each tag , for each corpus , I apply meta
##  to get a list of list (list of tags, for each tag a list of metas)
library(tm)
data("crude")
tags <- c('DateTimeStamp','Heading')
res <- lapply(tags,function(tag)
  lapply(crude,meta,tag))
names(res) <- tags
## I save the list
save(res,file = "meta.RData")

现在我加载保存的元数据，然后做相反的工作。

## load the data 
load("meta.RData")
## for each tag, for each corpus, assign the meta
for(tag in tags){
      meta.tag <- res[[tag]]
      lapply(seq_along(crude),function(y)
             meta(crude[[y]],tag) <- meta.tag[[y]])
}

r - 获取已保存 WebCorpus 的元数据

1 回答 1

Related

Reference