我有 26 个纯文本文件的语料库,每个文件在 12 - 148kb 之间,总共 1.2Mb。我在 Windows 7 笔记本电脑上使用 R。
我做了所有正常的清理工作(停用词、自定义停用词、小写字母、数字)并想做词干补全。我使用原始语料库作为字典,如示例中所示。我尝试了几个简单的向量,以确保它完全可以工作(大约 5 个术语),而且效果非常好。
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
它从昨天下午 4 点开始工作!在诊断下的 R Studio 中,请求日志显示具有不同请求编号的新请求。任务管理器使用一些内存显示它,但不是一个疯狂的数量。我不想阻止它,因为如果它快到了怎么办?关于如何检查进度的任何其他想法 - 不幸的是,它是一个不稳定的语料库?关于需要多长时间的想法?我考虑过使用 dtm 名称向量作为字典,在最频繁(或高 tf-idf)处切断,但我不愿意杀死这个过程。
这是一台普通的 Windows 7 笔记本电脑,运行着许多其他的东西。
这个语料库对于 stemCompletion 来说是不是太大了?除了迁移到 Python 之外,是否有更好的方法来进行 stemCompletion 或词根化副词干 - 我的网络搜索没有产生任何答案。