python - 语言 PDF：如何将例句添加到源词并添加到 CSV

Question

首先，我是 Python 新手，所以请多多包涵。我有一个 PDF 文件，左边是西班牙语词汇，右边是德语翻译。有时也有一些例句来说明句子的用法。这是 PDF 的外观：

我想编写一个 Python 脚本，它包含所有词汇、翻译和例句（+ 翻译），并获得一个包含四列的 CSV 文件。CSV 文件应如下所示：

如果没有例句，我可以逐行阅读，效果很好。但是，如果有一个例句，该行看起来有点像这样：

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

西班牙语句子应如下所示：Hay descuentos en los viajes para la tercera edad. 德语句子应如下所示：Für Senioren gibt es bei Reisen Ermässigung. 理想情况下，应将两个例句添加到“base”词中，因此在我上面的示例中添加到“la tercera edad”/“die Senioren”。对于“la tercera edad”，应该有四列。有时，没有例句；在这种情况下，我只需要两列。

这是我所做的：

import pdfplumber

pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()

# Read each line
for line in text.split('\n'):
    print(line)

打印line输出如下：

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

也许有办法做到这一点tabuly-py？我会很感激任何帮助。

干杯。

python - 语言 PDF：如何将例句添加到源词并添加到 CSV

0 回答 0

Related

Reference