hadoop - Beeline 不加载 CSV 文件

Question

因此，我尝试将 CSV 文件加载到直线中以进行一些简单的分析并开始使用 hadoop 套件。我正在使用以下命令 CREATE EXTERNAL TABLE IF NOT EXISTS babies( PseudoID_voorkeur INT, OpnameID INT, Specialisme VARCHAR(32), Opnamecategorie VARCHAR(32), OpnamecategorieOmschrijving VARCHAR(32), OpnametypeID VARCHAR(32), OpnametypeOmschrijving VARCHAR(32), OpnamesubtypeID VARCHAR(32), BehandelcategorieID_OPN VARCHAR(32), BehandelcategorieOmschr_OPN VARCHAR(32), BehandelcodeID VARCHAR(32), BehandelcodeOmschrijving VARCHAR(32), OpnamelocatieID VARCHAR(32), OpnamelocatieOmschrijving VARCHAR(32), AfdelingID_OPN VARCHAR(32), AfdelingOmschrijving_OPN VARCHAR(32), Behandelaar VARCHAR(32), Aanmelder VARCHAR(32), HerkomstID VARCHAR(32), HerkomstOmschrijving VARCHAR(32), Spoed_OPN INT, ScreeningstatusID_OPN VARCHAR(32), ScreeningstatusOmschrijving_OPN VARCHAR(32), OpnamestatusID_OPN INT, OpnamestatusOmschrijving_OPN VARCHAR(32), EersteOpname_OPN INT, GebruikOK_OPN INT, GewensteTermijn_OPN VARCHAR(32), Inschrijfdatum_OPN STRING, Wachtlijstdatum_OPN STRING, UitersteDatum_OPN STRING, GeplandeOpnamedatum_OPN STRING, GeplandeOpnametijd_OPN VARCHAR(32), GeplandeOntslagdatum_OPN STRING, GeplandeOntslagtijd_OPN VARCHAR(32), Oproepdatum_OPN STRING, Opnamedatum_OPN STRING, Opnametijd_OPN VARCHAR(32), Ontslagdatum_OPN STRING, Ontslagtijd_OPN VARCHAR(32), Annuleringsdatum_OPN STRING, Factureringsdatum_OPN STRING, Mutatiedatum_OPN STRING, Mutatietijd_OPN VARCHAR(32), VerwachteOpnameduur_OPN VARCHAR(32), BestemmingID VARCHAR(32), BestemmingOmschrijving VARCHAR(32), PseudoID_voorkeur1 INT, Aanvraagnummer INT, Broncode VARCHAR(32), Labgroep_naam VARCHAR(32), Labgroep_code INT, Afnamedatum STRING, Afnametijd VARCHAR(32), Afdeling VARCHAR(32), Aanvrager VARCHAR(32), Bepaling VARCHAR(32), Bepaling_omschrijving VARCHAR(32), Bepaling_materiaal VARCHAR(32), Uitslag_waarde VARCHAR(32), Uitslag_eenheid VARCHAR(32), Uitslag_grenswaarde_onder DOUBLE, Uitslag_grenswaarde_boven DOUBLE, Uitslag_grenswaarde_vlag VARCHAR(32), Uitslag_status VARCHAR(32), Zenddatum STRING, Zendtijd VARCHAR(32) )ROW FORMAT DELIMITED FIELDS TERMINATED BY "/073" LINES TERMINATED BY '\n' STORED AS TEXTFILE;

load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;

尝试此操作时，我处理了 0 行，看到代码被截断为输出： Loading data to table default.babies Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0] OK No rows affected (2.564 seconds)

有谁知道如何解决这个问题？CSV 文件由 ; 分隔（ /073 代表，行以换行符结尾

score 0 · Accepted Answer

如我所见，该文件已存在于 HDFS 中，请在创建外部表时添加以下内容

LOCATION '/user/cloudera/output/clean/'

在这种情况下不需要' LOAD DATA INPATH '，您可以直接查询表。

hadoop - Beeline 不加载 CSV 文件

1 回答 1

Related

Reference