我正在尝试使用 Pig 创建在 Hadoop 集群上运行的基于字典的标记器。基本上,它的作用是让每个文档(相当大的文本文档,最多几 MB)针对字典运行每个句子中的每个单词以读取相应的值。
将有多达几百个 Java 程序(不是线程)并行运行,使用只读模式的字典文件。这个想法是从文本中加载字典并创建一个Map
来查询它。
问:我应该准备什么?想要在多道程序环境中读取文件甚至是远程逻辑还是我应该首先为程序的每个实例复制(相对较小的)文件?
BufferedReader
阅读文件时我应该使用什么东西吗?
关于多道程序(与多线程相比)的结构化文档很少,所以我有点害怕这样做会撞墙。
注意:如果您为我提供更好的方法,您只能回答我的思维方式完全错误;-)