0

我有一个使用 NLTK 的工作情绪分析程序,它从我本地机器中的 .txt 文件中读取文本。现在我想读取放置在 Hadoop HDFS 中的 txt 文件并执行相同的情绪分析。

我怎样才能做到这一点?

任何关于这个主题的指针将不胜感激!!!

4

1 回答 1

0

因此,除非 nltk 能够识别 HDFS,否则这不可能完全实现。但是像 NLTK 这样的大多数程序都允许您将数据直接传递到程序中。假设是这种情况,您可以使用我在其他答案中的建议,如何在映射器或减速器中运行外部程序,将 HDFS 文件作为输入并将输出文件存储在 HDFS 中?. 您实际上编写了一个小型 Java 适配器,它打开 HDFS 文件的输入流并将其传递给您要运行的程序。

如果这听起来太麻烦,或者在您的情况下由于某种原因不可能,那么您总是可以使用 HDFS get 将文件放入本地地址。

于 2013-05-03T13:50:49.517 回答