因此,我尝试将 CSV 文件加载到直线中以进行一些简单的分析并开始使用 hadoop 套件。我正在使用以下命令
CREATE EXTERNAL TABLE IF NOT EXISTS babies(
PseudoID_voorkeur INT,
OpnameID INT,
Specialisme VARCHAR(32),
Opnamecategorie VARCHAR(32),
OpnamecategorieOmschrijving VARCHAR(32),
OpnametypeID VARCHAR(32),
OpnametypeOmschrijving VARCHAR(32),
OpnamesubtypeID VARCHAR(32),
BehandelcategorieID_OPN VARCHAR(32),
BehandelcategorieOmschr_OPN VARCHAR(32),
BehandelcodeID VARCHAR(32),
BehandelcodeOmschrijving VARCHAR(32),
OpnamelocatieID VARCHAR(32),
OpnamelocatieOmschrijving VARCHAR(32),
AfdelingID_OPN VARCHAR(32),
AfdelingOmschrijving_OPN VARCHAR(32),
Behandelaar VARCHAR(32),
Aanmelder VARCHAR(32),
HerkomstID VARCHAR(32),
HerkomstOmschrijving VARCHAR(32),
Spoed_OPN INT,
ScreeningstatusID_OPN VARCHAR(32),
ScreeningstatusOmschrijving_OPN VARCHAR(32),
OpnamestatusID_OPN INT,
OpnamestatusOmschrijving_OPN VARCHAR(32),
EersteOpname_OPN INT,
GebruikOK_OPN INT,
GewensteTermijn_OPN VARCHAR(32),
Inschrijfdatum_OPN STRING,
Wachtlijstdatum_OPN STRING,
UitersteDatum_OPN STRING,
GeplandeOpnamedatum_OPN STRING,
GeplandeOpnametijd_OPN VARCHAR(32),
GeplandeOntslagdatum_OPN STRING,
GeplandeOntslagtijd_OPN VARCHAR(32),
Oproepdatum_OPN STRING,
Opnamedatum_OPN STRING,
Opnametijd_OPN VARCHAR(32),
Ontslagdatum_OPN STRING,
Ontslagtijd_OPN VARCHAR(32),
Annuleringsdatum_OPN STRING,
Factureringsdatum_OPN STRING,
Mutatiedatum_OPN STRING,
Mutatietijd_OPN VARCHAR(32),
VerwachteOpnameduur_OPN VARCHAR(32),
BestemmingID VARCHAR(32),
BestemmingOmschrijving VARCHAR(32),
PseudoID_voorkeur1 INT,
Aanvraagnummer INT,
Broncode VARCHAR(32),
Labgroep_naam VARCHAR(32),
Labgroep_code INT,
Afnamedatum STRING,
Afnametijd VARCHAR(32),
Afdeling VARCHAR(32),
Aanvrager VARCHAR(32),
Bepaling VARCHAR(32),
Bepaling_omschrijving VARCHAR(32),
Bepaling_materiaal VARCHAR(32),
Uitslag_waarde VARCHAR(32),
Uitslag_eenheid VARCHAR(32),
Uitslag_grenswaarde_onder DOUBLE,
Uitslag_grenswaarde_boven DOUBLE,
Uitslag_grenswaarde_vlag VARCHAR(32),
Uitslag_status VARCHAR(32),
Zenddatum STRING,
Zendtijd VARCHAR(32) )ROW FORMAT
DELIMITED FIELDS TERMINATED BY "/073"
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;
尝试此操作时,我处理了 0 行,看到代码被截断为输出:
Loading data to table default.babies
Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0]
OK
No rows affected (2.564 seconds)
有谁知道如何解决这个问题?CSV 文件由 ; 分隔 ( /073 代表,行以换行符结尾