0

我正在使用带有 Spark 1.6.0 (Hadoop 1) 的数据块在 scala 中运行一个查询,以过滤我在 redshift 中拥有的一些 URL 数据,但是一旦查询成功完成,如果我对数据框运行计数,它表明存在数据框上的数据,但我尝试显示数据或连接数据 数据框似乎为空,它不显示任何内容,也无法进行连接。

这是将数据导入数据块的代码

val df  = sqlContext.read
  .format("com.databricks.spark.redshift")  
  .option("url", jdbcUrl)
  .option("tempdir", s"s3a://....")
  .option("query", s"select * from table where column like '%word1%word2%word3%' )
  .load()

实际数据是这样的

'https://www.asdfg.com/word1?word2=/word3/asdasdadasd'

或者

'https://www.asdfg.com/word1?word2=%2Fword3%2Fasdasdadasd'

我不明白为什么如果我运行计数我会得到结果,但对于任何其他操作,数据框似乎是空的,任何想法为什么会发生这种情况?

4

0 回答 0