在对此进行初步搜索后,我有点迷路了。
我想使用一个缓冲区对象来保存一系列 Unicode 代码点。我只需要扫描并从所述序列中提取标记,所以基本上这是一个只读缓冲区,我们需要在缓冲区内推进指针并提取子段的功能。缓冲区对象当然应该支持通常的正则表达式和字符串搜索操作。
可以为此使用普通的 Unicode 字符串,但问题是创建子字符串副本以模拟在缓冲区内推进指针。对于较大的缓冲区,这似乎非常低效,除非有一些解决方法。
我可以看到有一个Memoryview
合适的对象,但它不支持 Unicode (?)。
我还能用什么来提供上述功能?(无论是在 Py2 还是 Py3 中)。