python - 数据格式化和修复

Question

我正在尝试清理他们在网络中抓取的用户评论。当我尝试阅读熊猫时。没有警告或错误。然后打印数据框的长度。

然后我想应用标准化步骤。但我专注于土耳其语，所以我不能使用 python 库。我将使用第三方软件。

为此，我正在尝试将评论列写入文本文件。当我写入这些数据文本文件时，样本的长度是

和目标大小：

基本上我这样做：

注意：正如我所提到的，这些是客户评论，正如我们预期的那样，它们又脏又吵。一些样本包含许多输入字符，例如大约 56 个样本包含“\n\n\n\n”。我曾尝试通过清理数据在 python 中解决这个问题，但每次我都丢失样本。我也尝试在 Excel 上修复它，它没有工作。

问题：您对修复数据有什么建议吗？

score 0 · Accepted Answer

您似乎正在从您的文件中生成两个 CSV 文件df，然后将它们读回为reviews和targets.

如果你pd.read_csv用来读回它们，pd.read_csv默认有这个参数skip_blank_lines=True，它会跳过空行。如果您的原始文件的某些行df仅包含多个“\n”，那么它将在您的新 CSV 中以空行结束，下次读取时将跳过该行。

您可以通过为空行总数设置两个计数器变量来验证这一点，并查看它是否与“损失”匹配。

num_empty_review = 0
num_empty_target = 0

for ..., ... in df.iterrows():
    review = ...replace('\n', '')
    target = ...replace('\n', '')
    if review.replace(' ', '') == '':
        num_empty_review += 1
    if target.replace(' ', '') == '':
        num_empty_target += 1
    ...
    ...
print(num_empty_review, num_empty_target)

最后，下一次，请将您的代码以文本形式粘贴到此处，就像我在上面所做的那样:)

python - 数据格式化和修复

1 回答 1

Related

Reference