0

我正在尝试使用 odfpy 将附加到 Open Document Presentation 文件的注释转换为文本。我设法打开文件,列出“注释”对象,设法从中提取我认为是段落的内容,并且它以某种方式起作用,直到我尝试打印带有特殊字符的注释(德语变音符号öäü),这会导致错误:

UnicodeEncodeError:“ascii”编解码器无法对位置 17-19 中的字符进行编码:序数不在范围内(128)

现在我发现我不是第一个遇到编码问题的人,我很乐意潜入重新编码文本。我的问题是我不知道如何将音符转换为正确的字符串。这是我的代码:

import sys
from odf.presentation import Notes
from odf.opendocument import load
from odf import text

doc=load(sys.argv[1])
slides=doc.presentation
notes=slides.getElementsByType(Notes)

for page in notes:
    pars = page.getElementsByType(text.P)
    for p in pars:
        print p

我只是遍历元素并尝试打印它们,希望神奇地出现笔记中的文本。我已经在https://spideroak.com/browse/share/enno_middelberg/public/public存放了一个示例演示文件来说明这个问题。

谁能启发我如何将文本从 ODF 元素中取出并放入字符串中?

非常感谢,

远野

4

1 回答 1

2

str(p)失败,因为p包含非 ascii 文本。

利用print unicode(p)

于 2013-11-29T13:46:10.837 回答