如何DataFrame
在 PySpark 中为流式传输设置模式。
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
# Import data types
from pyspark.sql.types import *
spark = SparkSession\
.builder\
.appName("StructuredNetworkWordCount")\
.getOrCreate()
# Create DataFrame representing the stream of input lines from connection to localhost:5560
lines = spark\
.readStream\
.format('socket')\
.option('host', '192.168.0.113')\
.option('port', 5560)\
.load()
例如我需要一个像这样的表:
Name, lastName, PhoneNumber
Bob, Dylan, 123456
Jack, Ma, 789456
....
如何将标头/模式设置为 ['Name','lastName','PhoneNumber'] 及其数据类型。
另外,是否可以连续显示此表,或者说DataFrame
. 当我尝试它时,我得到了错误
"pyspark.sql.utils.AnalysisException: '当流式 DataFrames/Datasets 上没有流式聚合时,不支持完整输出模式;;\nProject"