1

首先,我是 Python 新手,所以请多多包涵。我有一个 PDF 文件,左边是西班牙语词汇,右边是德语翻译。有时也有一些例句来说明句子的用法。这是 PDF 的外观:

PDF 示例

我想编写一个 Python 脚本,它包含所有词汇、翻译和例句(+ 翻译),并获得一个包含四列的 CSV 文件。CSV 文件应如下所示:

理想 CSV 示例

如果没有例句,我可以逐行阅读,效果很好。但是,如果有一个例句,该行看起来有点像这样:

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

西班牙语句子应如下所示:Hay descuentos en los viajes para la tercera edad. 德语句子应如下所示:Für Senioren gibt es bei Reisen Ermässigung. 理想情况下,应将两个例句添加到“base”词中,因此在我上面的示例中添加到“la tercera edad”/“die Senioren”。对于“la tercera edad”,应该有四列。有时,没有例句;在这种情况下,我只需要两列。

这是我所做的:

import pdfplumber

pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()

# Read each line
for line in text.split('\n'):
    print(line)

打印line输出如下:

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

也许有办法做到这一点tabuly-py?我会很感激任何帮助。

干杯。

4

0 回答 0