我想使用结构如下的波兰引理的外部 txt 文件:(许多其他语言的引理来源http://www.lexiconista.com/datasets/lemmatization/)
Abadan Abadanem
Abadan Abadanie
Abadan Abadanowi
Abadan Abadanu
abadańczyk abadańczycy
abadańczyk abadańczyka
abadańczyk abadańczykach
abadańczyk abadańczykami
abadańczyk abadańczyki
abadańczyk abadańczykiem
abadańczyk abadańczykom
abadańczyk abadańczyków
abadańczyk abadańczykowi
abadańczyk abadańczyku
abadanka abadance
abadanka abadanek
abadanka abadanką
abadanka abadankach
abadanka abadankami
什么包和什么语法,可以让我使用这样的 txt 数据库来对我的词袋进行词形还原。我意识到,对于英语有 Wordnet,但对于那些想将这个功能用于稀有语言的人来说没有运气。
如果没有,这个数据库是否可以转换为对任何提供词形还原的包有用?也许通过将其转换为广泛的形式?例如,免费的 AntConc concordancer 使用的表格,( http://www.laurenceanthony.net/software/antconc/ )
Abadan -> Abadanem, Abadanie, Abadanowi, Abadanu
abadańczyk -> abadańczycy, abadańczyka, abadańczykach
etc.
简而言之:如何在任何已知的 CRAN R 文本挖掘包中使用 txt 文件中的词条进行词条化?如果是这样,如何格式化这样的txt文件?
更新:亲爱的@DmitriySelivanov 我摆脱了所有变音符号,现在我想将它应用于 tm corpus "docs"
docs <- tm_map(docs, function(x) lemma_tokenizer(x, lemma_hashmap="lemma_hm"))
我尝试将其作为标记器
LemmaTokenizer <- function(x) lemma_tokenizer(x, lemma_hashmap="lemma_hm")
docsTDM <-
DocumentTermMatrix(docs, control = list(wordLengths = c(4, 25), tokenize=LemmaTokenizer))
它向我抛出了一个错误:
Error in lemma_hashmap[[tokens]] :
attempt to select more than one element in vectorIndex
该函数可以使用文本向量作为魅力。