0

我正在尝试清理他们在网络中抓取的用户评论。当我尝试阅读熊猫时。没有警告或错误。然后打印数据框的长度。

在此处输入图像描述

然后我想应用标准化步骤。但我专注于土耳其语,所以我不能使用 python 库。我将使用第三方软件。

为此,我正在尝试将评论列写入文本文件。当我写入这些数据文本文件时,样本的长度是

在此处输入图像描述

和目标大小:

在此处输入图像描述

基本上我这样做:

在此处输入图像描述

注意:正如我所提到的,这些是客户评论,正如我们预期的那样,它们又脏又吵。一些样本包含许多输入字符,例如大约 56 个样本包含“\n\n\n\n”。我曾尝试通过清理数据在 python 中解决这个问题,但每次我都丢失样本。我也尝试在 Excel 上修复它,它没有工作。

问题:您对修复数据有什么建议吗?

4

1 回答 1

0

您似乎正在从您的文件中生成两个 CSV 文件df,然后将它们读回为reviewstargets.

如果你pd.read_csv用来读回它们,pd.read_csv默认有这个参数skip_blank_lines=True,它会跳过空行。如果您的原始文件的某些行df仅包含多个“\n”,那么它将在您的新 CSV 中以空行结束,下次读取时将跳过该行。

您可以通过为空行总数设置两个计数器变量来验证这一点,并查看它是否与“损失”匹配。

num_empty_review = 0
num_empty_target = 0

for ..., ... in df.iterrows():
    review = ...replace('\n', '')
    target = ...replace('\n', '')
    if review.replace(' ', '') == '':
        num_empty_review += 1
    if target.replace(' ', '') == '':
        num_empty_target += 1
    ...
    ...
print(num_empty_review, num_empty_target)

最后,下一次,请将您的代码以文本形式粘贴到此处,就像我在上面所做的那样:)

于 2022-02-08T23:56:02.227 回答