python - 当我看到它时如何识别特殊的 eol 字符，使用 Python？

Question

我正在使用 Python 抓取一组原始 pdf 文件。让他们发短信后，我在把行尾弄出来时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是，我还是不知道。

这不是一个'\n'，或者，我不认为，'\r\n'。但是，我设法隔离了这些特殊字符之一。我确实将它保存在内存中，并且通过调用my_str.replace(eol, '')，我可以从我的一个文件中删除所有这些字符。

所以我的问题是开放式的。当谈到 unicode 等时，我有点迷茫。我怎样才能在我的文件中识别这个字符而不诉诸一些荒谬的东西，比如序列化它然后读入它？有没有办法可以将它称为代码？我无法让 Python 产生它实际的样子。如果我打印它或调用它，我所看到的只是它unicode(special_eol)作为换行符的功能用法中的字符。

请帮忙！谢谢，如果我遗漏了一些明显的东西，我很抱歉。

score 2 · Accepted Answer

要确定是什么特定字符，您可以使用str.encode('unicode_escape')或repr()获取（在 Python 2 中）字符的 ASCII 可打印表示：

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'

python - 当我看到它时如何识别特殊的 eol 字符，使用 Python？

1 回答 1

Related

Reference