我正在尝试清理他们在网络中抓取的用户评论。当我尝试阅读熊猫时。没有警告或错误。然后打印数据框的长度。
然后我想应用标准化步骤。但我专注于土耳其语,所以我不能使用 python 库。我将使用第三方软件。
为此,我正在尝试将评论列写入文本文件。当我写入这些数据文本文件时,样本的长度是
和目标大小:
基本上我这样做:
注意:正如我所提到的,这些是客户评论,正如我们预期的那样,它们又脏又吵。一些样本包含许多输入字符,例如大约 56 个样本包含“\n\n\n\n”。我曾尝试通过清理数据在 python 中解决这个问题,但每次我都丢失样本。我也尝试在 Excel 上修复它,它没有工作。
问题:您对修复数据有什么建议吗?