对于布局,我们有著名的“Lorem ipsum”文本来测试它的外观。
我正在寻找的是一组包含用几种不同编码编码的文本的文件,我可以在我的 JUnit 测试中使用这些文件来测试一些在读取文本文件时处理字符编码的方法。
例子:有一个ISO 8859-1
编码的测试文件和一个Windows-1252
编码的测试文件。Windows-1252 必须触发区域 80 16 – 9F 16的差异。换句话说,它必须至少包含该区域的一个字符,才能将其与 ISO 8859-1 区分开来。
也许最好的测试文件集是每个编码的测试文件包含一次所有字符。但也许我不知道……我们都喜欢这种编码的东西,对吧?:-)
是否有这样一组用于字符编码问题的测试文件?