首先,我是 Python 新手,所以请多多包涵。我有一个 PDF 文件,左边是西班牙语词汇,右边是德语翻译。有时也有一些例句来说明句子的用法。这是 PDF 的外观:
我想编写一个 Python 脚本,它包含所有词汇、翻译和例句(+ 翻译),并获得一个包含四列的 CSV 文件。CSV 文件应如下所示:
如果没有例句,我可以逐行阅读,效果很好。但是,如果有一个例句,该行看起来有点像这样:
Für Senioren gibt es bei Hay descuentos en los viajes
Reisen Ermässigung. para la tercera edad.
西班牙语句子应如下所示:Hay descuentos en los viajes para la tercera edad.
德语句子应如下所示:Für Senioren gibt es bei Reisen Ermässigung.
理想情况下,应将两个例句添加到“base”词中,因此在我上面的示例中添加到“la tercera edad”/“die Senioren”。对于“la tercera edad”,应该有四列。有时,没有例句;在这种情况下,我只需要两列。
这是我所做的:
import pdfplumber
pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()
# Read each line
for line in text.split('\n'):
print(line)
打印line
输出如下:
Für Senioren gibt es bei Hay descuentos en los viajes
Reisen Ermässigung. para la tercera edad.
也许有办法做到这一点tabuly-py
?我会很感激任何帮助。
干杯。