python - 清理半冗余文本

Question

首先是一点背景：链接到附件

我有很多由一些语音转文本应用程序生成的文本（老实说，我不知道应用程序的名称，因为我没有物理访问权限，但是我可以访问实时输出）。我正在实时挖掘这些数据，输出文本看起来像第一个附件，有些部分非常干净，有些非常冗余。

我现在已经用 Python 编写了一个清理文本的软件（附件二）。问题是，我一次只能处理很多文本，例如。我的备份有数百兆字节的纯文本，当它实时出现时，很难只处理几个字符串，因为半冗余持续 15-25 行（如附件 1 所示）。

该软件适用于更大的文件，我现在正在尝试重写代码，使其适用于实时输出。

但由于我是一名自学成才的程序员，我想知道是否有人可以分享他们的工作方法。

我的方法是（另见附件二，但我不擅长评论，所以我不知道你是否能从中得到很多）：

--> 关于 #3 的注意事项：清理函数执行以下操作： *通过使用模糊字符串匹配、fuzzywuzzy 比较行，并删除重复或半重复的行

*检查一个句子中的第一个单词是否与上一个句子中的最后一个单词相同，在这种情况下删除上一个句子中的最后一个单词 *较小的东西，使文本看起来干净。

我的问题是：你会以完全不同的方式去做吗？也许机器学习？另一种语言可能更适合？任何图书馆甚至软件已经可以做到这一点？

如果您确实阅读了我的代码，我也渴望了解我的错误，如果您看到我正在做的一些愚蠢的事情，非常欢迎批评（如果您想抨击我，甚至是严厉的批评）是非常受欢迎的。

非常感谢您的宝贵时间。

0 回答 0