11

我开始使用 R 中的 tm 包,所以请多多包涵,并为文字的大墙道歉。我创建了一个相当大的社会主义/共产主义宣传语料库,并想提取新创造的政治术语(多个词,例如“斗争-批评-改造运动”)。

这是一个两步的问题,一个是关于我目前的代码,一个是关于我应该如何继续。

第 1 步:为此,我想首先识别一些常见的 ngram。但我很早就被卡住了。这是我一直在做的事情:

library(tm)
library(RWeka)

a  <-Corpus(DirSource("/mycorpora/1965"), readerControl = list(language="lat")) # that dir is full of txt files
summary(a)  
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english") 
# everything works fine so far, so I start playing around with what I have
adtm <-DocumentTermMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

inspect(adtm) 

findFreqTerms(adtm, lowfreq=10) # find terms with a frequency higher than 10

findAssocs(adtm, "usa",.5) # just looking for some associations  
findAssocs(adtm, "china",.5)

# ... and so on, and so forth, all of this works fine

我加载到 R 中的语料库可以很好地与我扔给它的大多数功能一起使用。从我的语料库创建 TDM、查找常用词、关联、创建词云等,我没有遇到任何问题。但是,当我尝试使用tm FAQ中概述的方法来识别 ngram 时,我显然在 tdm-constructor 上犯了一些错误:

# Trigram

TrigramTokenizer <- function(x) NGramTokenizer(x, 
                                Weka_control(min = 3, max = 3))

tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))

inspect(tdm)

我收到此错误消息:

Error in rep(seq_along(x), sapply(tflist, length)) : 
invalid 'times' argument
In addition: Warning message:
In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'

有任何想法吗?“a”不是正确的类/对象吗?我很困惑。我认为这里有一个根本性的错误,但我没有看到它。:(

第 2 步:然后,当我将语料库与其他语料库进行比较时,我想识别出显着过多的 ngram。例如,我可以将我的语料库与大型标准英语语料库进行比较。或者我创建可以相互比较的子集(例如苏联与中国共产党的术语)。你有什么建议我应该如何去做吗?我应该研究的任何脚本/功能?只是一些想法或指示会很棒。

谢谢你的耐心!

4

4 回答 4

7

我无法重现您的问题,您使用的是最新版本的 R、tm、RWeka 等吗?

require(tm)
a <- Corpus(DirSource("C:\\Downloads\\Only1965\\Only1965"))
summary(a)  
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
# a <- tm_map(a, stemDocument, language = "english") 
# I also got it to work with stemming, but it takes so long...
adtm <-DocumentTermMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

inspect(adtm) 

findFreqTerms(adtm, lowfreq=10) # find terms with a frequency higher than 10
findAssocs(adtm, "usa",.5) # just looking for some associations  
findAssocs(adtm, "china",.5)

# Trigrams
require(RWeka)
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
tdm <- removeSparseTerms(tdm, 0.75)
inspect(tdm[1:5,1:5])

这就是我得到的

A term-document matrix (5 terms, 5 documents)

Non-/sparse entries: 11/14
Sparsity           : 56%
Maximal term length: 28 
Weighting          : term frequency (tf)

                                   Docs
Terms                               PR1965-01.txt PR1965-02.txt PR1965-03.txt
  †chinese press                              0             0             0
  †renmin ribao                               0             1             1
  — renmin ribao                              2             5             2
  “ chinese people                            0             0             0
  “renmin ribaoâ€\u009d editorial             0             1             0
  etc. 

关于你的第二步,这里有一些有用的开始:

http://quantifyingmemory.blogspot.com/2013/02/mapping-significant-textual-differences.html http://tedunderwood.com/2012/08/14/where-to-start-with-text-mining/和这是他的代码https://dl.dropboxusercontent.com/u/4713959/Neuchatel/NassrProgram.R

于 2013-10-31T06:44:19.447 回答
2

关于第 1 步,Brian.keng 在https://stackoverflow.com/a/20251039/3107920提供了一种解决方法,它解决了 Mac OSX 上的这个问题 - 它似乎与并行化有关,而不是(那是次要的噩梦) mac上的java设置。

于 2014-03-26T13:02:48.140 回答
1

您可能希望显式访问这样的功能

BigramTokenizer  <- function(x) {
    RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 3))
}

myTdmBi.d <- TermDocumentMatrix(
    myCorpus.d,
    control = list(tokenize = BigramTokenizer, weighting = weightTfIdf)
)

此外,其他一些随机出现的事情。

myCorpus.d <- tm_map(myCorpus.d, tolower)  # This does not work anymore 

试试这个

 myCorpus.d <- tm_map(myCorpus.d, content_transformer(tolower))  # Make lowercase

在 RTextTools 包中,

create_matrix(as.vector(C$V2), ngramLength=3) # ngramLength 抛出错误信息。

于 2014-08-22T19:13:13.033 回答
0

在 Ben 的回答之后 - 我也无法重现这一点,但过去我在 plyr 包和依赖项冲突方面遇到了麻烦。就我而言,Hmisc 和 ddply 之间存在冲突。您可以尝试在有问题的代码行之前添加此行:

tryCatch(detach("package:Hmisc"), error = function(e) NULL)

如果这与您的问题完全相切,请道歉!

于 2013-11-23T20:02:27.700 回答