在研究了人们如何处理标题的不同方式之后,我注意到它经常错过如何处理非英语标题。
url 编码非常严格。见http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
因此,例如,人们如何处理诸如此类的标题
"Una lágrima cayó en la arena"
可以为印欧语言提出一个合理的表格,即。可以通过 ISO-8859-1 编码的东西。例如,转换表将翻译 'á' => 'a',所以 slug 将是
"una-lagrima-cayo-en-la-arena"
但是,我使用的是 unicode(特别是使用 UTF-8 编码),因此无法保证我将获得哪些排序代码点(我必须为无法使用 ISO-8859-1 编码的东西做好准备。
我很无语。如何处理?我是否应该为 ISO_8859-1 范围(<255)中的字符提供一个转换表并放弃其他所有内容?
编辑:为了先验地提供更多背景信息,我真的不希望用非印欧语言处理数据,但如果遇到此类数据,我想制定一个计划。扩展 ASCII 的转换表会很好。任何指针?
另外,由于人们在问,我正在使用 python,在 Google App Engine 上运行