1

我正在使用 Python 抓取一组原始 pdf 文件。让他们发短信后,我在把行尾弄出来时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是,我还是不知道。

这不是一个'\n',或者,我不认为,'\r\n'。但是,我设法隔离了这些特殊字符之一。我确实将它保存在内存中,并且通过调用my_str.replace(eol, ''),我可以从我的一个文件中删除所有这些字符。

所以我的问题是开放式的。当谈到 unicode 等时,我有点迷茫。我怎样才能在我的文件中识别这个字符而不诉诸一些荒谬的东西,比如序列化它然后读入它?有没有办法可以将它称为代码?我无法让 Python 产生它实际的样子。如果我打印它或调用它,我所看到的只是它unicode(special_eol)作为换行符的功能用法中的字符。

请帮忙!谢谢,如果我遗漏了一些明显的东西,我很抱歉。

4

1 回答 1

2

要确定是什么特定字符,您可以使用str.encode('unicode_escape')repr()获取(在 Python 2 中)字符的 ASCII 可打印表示:

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'
于 2013-09-25T07:04:38.947 回答