3

我正在尝试使用 Pig 创建在 Hadoop 集群上运行的基于字典的标记器。基本上,它的作用是让每个文档(相当大的文本文档,最多几 MB)针对字典运行每个句子中的每个单词以读取相应的值。

将有多达几百个 Java 程序(不是线程)并行运行,使用只读模式的字典文件。这个想法是从文本中加载字典并创建一个Map来查询它。

问:我应该准备什么?想要在多道程序环境中读取文件甚至是远程逻辑还是我应该首先为程序的每个实例复制(相对较小的)文件?BufferedReader阅读文件时我应该使用什么东西吗?

关于多道程序(与多线程相比)的结构化文档很少,所以我有点害怕这样做会撞墙。

注意:如果您为我提供更好的方法,您只能回答我的思维方式完全错误;-)

4

1 回答 1

0

我认为你的方法很好。您应该将字典从DistributedCache内存中加载,并使用内存加载的字典(例如 a HashMap)进行检查。

于 2013-08-15T21:25:51.657 回答