0

我正在尝试使用 Pyspark(Azure Databricks)中的以下代码以结构化格式捕获 Azure Application Insights 事件 -

import requests
import json

appId = "..."
appKey = "..."

query = """traces | where timestamp > ago(1d) | order by timestamp"""
params = {"query": query}
headers = {'X-Api-Key': appKey}
url = f'https://api.applicationinsights.io/v1/apps/{appId}/query'
response = requests.get(url, headers=headers, params=params)
logs = json.loads(response.text)

json = json.dumps(logs)

jsonRDD = sc.parallelize([json])
df = spark.read.option('multiline', "true").json(jsonRDD)

display(df) 

但是,由于某种原因,这仅返回 json 结构。如何将其转换为结构化或表格格式?

请帮忙!

4

1 回答 1

0

registerTempTable已在 spark 2.0 中弃用。改为使用createOrReplaceTempView

df = spark.read.option('multiline', "true").json(jsonRDD)
df.createOrReplaceTempView("df");
query= spark.sql("SELECT timestamp FROM traces)

PySpark SQL 还提供了一种读取 JSON 文件的方法,方法是直接从读取文件创建临时视图,使用spark.sql(“load JSON to temporary view”)

spark.sql("CREATE OR REPLACE TEMPORARY VIEW zipcode USING json OPTIONS" + 
      " (path 'resources/zipcodes.json')")
spark.sql("select * from zipcode").show()

您可以参考如何在 spark sql 中解析嵌套的 JSON 对象?PySpark 将 JSON 文件读入 DataFrame

于 2021-09-27T10:06:08.617 回答