我正在使用来自 Kaggle 的泰坦尼克号数据集。我想从 train.csv 中删除任何具有空列的行(我知道这不是处理丢失数据的最佳方法,但无论如何这个问题对我来说都很有趣)。
我想采用这种 Unix 类型的方式(使用 awk、sed 或 grep 之类的东西),因为我正试图在这些工具上做得更好,但我什至不知道从哪里开始。
数据示例:
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
在第二行,小屋是空的,所以我想从文件中删除它。
请注意,第四列有时包含逗号,但该列始终包含在双引号中。
在旁边:
我还想知道如何仅针对特定列执行此操作,但如果此问题的答案不能帮助我回答该问题,我可以将其作为一个单独的问题提出。