4

我是 Cascading/Hadoop 的新手,正在尝试以本地模式(即在内存中)运行一个简单的示例。该示例仅复制一个文件:

    import java.util.Properties;

    import cascading.flow.Flow;
    import cascading.flow.FlowConnector;
    import cascading.flow.FlowDef;
    import cascading.flow.local.LocalFlowConnector;
    import cascading.pipe.Pipe;
    import cascading.property.AppProps;
    import cascading.scheme.hadoop.TextLine;
    import cascading.tap.Tap;
    import cascading.tap.hadoop.Hfs;

    public class CascadingTest {

            public static void main(String[] args) {
                Properties properties = new Properties();


                AppProps.setApplicationJarClass( properties, CascadingTest.class );
                FlowConnector flowConnector = new LocalFlowConnector();

                // create the source tap
                Tap inTap = new Hfs( new TextLine(), "D:\\git_workspace\\Impatient\\part1\\data\\rain.txt" );

            // create the sink tap
            Tap outTap = new Hfs( new TextLine(), "D:\\git_workspace\\Impatient\\part1\\data\\out.txt" );

            // specify a pipe to connect the taps
            Pipe copyPipe = new Pipe( "copy" );

            // connect the taps, pipes, etc., into a flow
            FlowDef flowDef = FlowDef.flowDef()
                .addSource( copyPipe, inTap )
                .addTailSink( copyPipe, outTap );

                // run the flow
            Flow flow = flowConnector.connect( flowDef );
            flow.complete();
        }
    }

这是我得到的错误:

09-25-12 11:30:38,114 INFO  - AppProps                     - using app.id: 9C82C76AC667FDAA2F6969A0DF3949C6
Exception in thread "main" cascading.flow.planner.PlannerException: could not build flow from assembly: [java.util.Properties cannot be cast to org.apache.hadoop.mapred.JobConf]
    at cascading.flow.planner.FlowPlanner.handleExceptionDuringPlanning(FlowPlanner.java:515)
    at cascading.flow.local.planner.LocalPlanner.buildFlow(LocalPlanner.java:84)
    at cascading.flow.FlowConnector.connect(FlowConnector.java:454)
    at com.x.y.CascadingTest.main(CascadingTest.java:37)
Caused by: java.lang.ClassCastException: java.util.Properties cannot be cast to org.apache.hadoop.mapred.JobConf
    at cascading.tap.hadoop.Hfs.sourceConfInit(Hfs.java:78)
    at cascading.flow.local.LocalFlowStep.initTaps(LocalFlowStep.java:77)
    at cascading.flow.local.LocalFlowStep.getInitializedConfig(LocalFlowStep.java:56)
    at cascading.flow.local.LocalFlowStep.createFlowStepJob(LocalFlowStep.java:135)
    at cascading.flow.local.LocalFlowStep.createFlowStepJob(LocalFlowStep.java:38)
    at cascading.flow.planner.BaseFlowStep.getFlowStepJob(BaseFlowStep.java:588)
    at cascading.flow.BaseFlow.initializeNewJobsMap(BaseFlow.java:1162)
    at cascading.flow.BaseFlow.initialize(BaseFlow.java:184)
    at cascading.flow.local.planner.LocalPlanner.buildFlow(LocalPlanner.java:78)
    ... 2 more
4

3 回答 3

4

只是为了提供更多细节:您不能在级联中混合本地和 hadoop 类,因为它们假定不同且不兼容的环境。在您的情况下发生的情况是您正在尝试使用 hadoop taps 创建本地流,后者期望使用 hadoopJobConf而不是Properties用于配置本地 taps 的对象。

如果您使用cascading.tap.local.FileTap而不是cascading.tap.hadoop.Hfs.

于 2012-09-26T02:11:25.717 回答
1

欢迎来到级联 -

我刚刚在 Cascading 用户列表上回答,但简而言之,问题是本地和 Hadoop 模式类的混合。此代码具有 LocalFlowConnector,但随后使用 Hfs 水龙头。

当我恢复到“不耐烦”教程中使用的类时,它运行正确: https ://gist.github.com/3784194

于 2012-09-25T20:24:17.667 回答
0

是的,您需要使用 LFS(本地文件系统)tap 而不是 HFS(Hadoop 文件系统)。

您还可以在本地模式本身/来自 Eclipse 中使用 Junit 测试用例(使用 cascading-unittest jar)测试您的代码。

http://www.cascading.org/2012/08/07/cascading-for-the-impatient-part-6/

于 2014-05-20T05:10:03.523 回答