我正在使用 Python 抓取一组原始 pdf 文件。让他们发短信后,我在把行尾弄出来时遇到了很多麻烦。我无法弄清楚行分隔符是什么。麻烦的是,我还是不知道。
这不是一个'\n'
,或者,我不认为,'\r\n'
。但是,我设法隔离了这些特殊字符之一。我确实将它保存在内存中,并且通过调用my_str.replace(eol, '')
,我可以从我的一个文件中删除所有这些字符。
所以我的问题是开放式的。当谈到 unicode 等时,我有点迷茫。我怎样才能在我的文件中识别这个字符而不诉诸一些荒谬的东西,比如序列化它然后读入它?有没有办法可以将它称为代码?我无法让 Python 产生它实际的样子。如果我打印它或调用它,我所看到的只是它unicode(special_eol)
作为换行符的功能用法中的字符。
请帮忙!谢谢,如果我遗漏了一些明显的东西,我很抱歉。