json - 如何使用 Pyspark 提取 Azure Application Insights 事件？

Question

我正在尝试使用 Pyspark（Azure Databricks）中的以下代码以结构化格式捕获 Azure Application Insights 事件 -

import requests
import json

appId = "..."
appKey = "..."

query = """traces | where timestamp > ago(1d) | order by timestamp"""
params = {"query": query}
headers = {'X-Api-Key': appKey}
url = f'https://api.applicationinsights.io/v1/apps/{appId}/query'
response = requests.get(url, headers=headers, params=params)
logs = json.loads(response.text)

json = json.dumps(logs)

jsonRDD = sc.parallelize([json])
df = spark.read.option('multiline', "true").json(jsonRDD)

display(df)

但是，由于某种原因，这仅返回 json 结构。如何将其转换为结构化或表格格式？

请帮忙！

score 0 · Accepted Answer

registerTempTable已在 spark 2.0 中弃用。改为使用createOrReplaceTempView。

df = spark.read.option('multiline', "true").json(jsonRDD)
df.createOrReplaceTempView("df");
query= spark.sql("SELECT timestamp FROM traces)

PySpark SQL 还提供了一种读取 JSON 文件的方法，方法是直接从读取文件创建临时视图，使用spark.sql(“load JSON to temporary view”)

spark.sql("CREATE OR REPLACE TEMPORARY VIEW zipcode USING json OPTIONS" + 
      " (path 'resources/zipcodes.json')")
spark.sql("select * from zipcode").show()

您可以参考如何在 spark sql 中解析嵌套的 JSON 对象？和PySpark 将 JSON 文件读入 DataFrame

json - 如何使用 Pyspark 提取 Azure Application Insights 事件？

1 回答 1

Related

Reference