我正在使用带有 Spark 1.6.0 (Hadoop 1) 的数据块在 scala 中运行一个查询,以过滤我在 redshift 中拥有的一些 URL 数据,但是一旦查询成功完成,如果我对数据框运行计数,它表明存在数据框上的数据,但我尝试显示数据或连接数据 数据框似乎为空,它不显示任何内容,也无法进行连接。
这是将数据导入数据块的代码
val df = sqlContext.read
.format("com.databricks.spark.redshift")
.option("url", jdbcUrl)
.option("tempdir", s"s3a://....")
.option("query", s"select * from table where column like '%word1%word2%word3%' )
.load()
实际数据是这样的
'https://www.asdfg.com/word1?word2=/word3/asdasdadasd'
或者
'https://www.asdfg.com/word1?word2=%2Fword3%2Fasdasdadasd'
我不明白为什么如果我运行计数我会得到结果,但对于任何其他操作,数据框似乎是空的,任何想法为什么会发生这种情况?