我想使用 R 的分布式计算 tm 包(称为tm.plugin.dc)制作一个包含 1 亿条推文的文本语料库。推文存储在我笔记本电脑上的一个大型 MySQL 表中。我的笔记本电脑很旧,所以我使用的是在 Amazon EC2 上设置的 Hadoop 集群。
CRAN的tm.plugin.dc 文档说目前仅支持 DirSource。该文档似乎表明 DirSource 每个文件只允许一个文档。我需要语料库将每条推文视为文档。我有 1 亿条推文——这是否意味着我需要在旧笔记本电脑上创建 1 亿个文件?这似乎太过分了。有没有更好的办法?
到目前为止我已经尝试过:
将 MySQL 表的文件转储为单个(大量).sql 文件。将文件上传到 S3。将文件从 S3 传输到集群。使用 Cloudera 的 Sqoop 工具将文件导入 Hive。怎么办?我不知道如何使 DirSource 与 Hive 一起工作。
在我的笔记本电脑上使每条推文成为 XML 文件。但是怎么做?我的电脑很旧,不能很好地做到这一点。... 如果我能克服这个问题,那么我会: 将所有 1 亿个 XML 文件上传到亚马逊 S3 中的一个文件夹。将 S3 文件夹复制到 Hadoop 集群。将 DirSource 指向该文件夹。