我刚刚开始使用 Hadoop,我正在努力弄清楚如何使用不是文件的其他输入源,即从 AWS SimpleDB 读取所有行,或者从另一个系统上的 REST API 读取所有记录。一切在线仅显示如何处理文件或几个选定的数据库。
InputFormat 的 API 看起来相当复杂,所以我试图找出从任何非文件数据源读取数据的最快方法,然后可以使用 Amazon 的 Elastic MapReduce(基于 Hadoop)对其进行 MapReduce。我正在使用 JAVA 编写代码。
谢谢!
我刚刚开始使用 Hadoop,我正在努力弄清楚如何使用不是文件的其他输入源,即从 AWS SimpleDB 读取所有行,或者从另一个系统上的 REST API 读取所有记录。一切在线仅显示如何处理文件或几个选定的数据库。
InputFormat 的 API 看起来相当复杂,所以我试图找出从任何非文件数据源读取数据的最快方法,然后可以使用 Amazon 的 Elastic MapReduce(基于 Hadoop)对其进行 MapReduce。我正在使用 JAVA 编写代码。
谢谢!