我有一个使用 NLTK 的工作情绪分析程序,它从我本地机器中的 .txt 文件中读取文本。现在我想读取放置在 Hadoop HDFS 中的 txt 文件并执行相同的情绪分析。
我怎样才能做到这一点?
任何关于这个主题的指针将不胜感激!!!
我有一个使用 NLTK 的工作情绪分析程序,它从我本地机器中的 .txt 文件中读取文本。现在我想读取放置在 Hadoop HDFS 中的 txt 文件并执行相同的情绪分析。
我怎样才能做到这一点?
任何关于这个主题的指针将不胜感激!!!
因此,除非 nltk 能够识别 HDFS,否则这不可能完全实现。但是像 NLTK 这样的大多数程序都允许您将数据直接传递到程序中。假设是这种情况,您可以使用我在其他答案中的建议,如何在映射器或减速器中运行外部程序,将 HDFS 文件作为输入并将输出文件存储在 HDFS 中?. 您实际上编写了一个小型 Java 适配器,它打开 HDFS 文件的输入流并将其传递给您要运行的程序。
如果这听起来太麻烦,或者在您的情况下由于某种原因不可能,那么您总是可以使用 HDFS get 将文件放入本地地址。