我正在测试一个从可搜索 PDF 中提取文本的 SDK。SDK 的一个依赖项最近已更新,它导致对希伯来语文本的现有测试失败。我不太了解希伯来语,也不太了解所涉及的技术如何代表从右到左的语言。
NUnit 测试断言提取的文本与 C# 字符串“מנבוצץז ”匹配。
string hebrewText = reader.ReadToEnd();
Assert.AreEqual("מנבוצץז ", hebrewText);
光栅化的 PDF 具有我认为相同的字符,但顺序相反。
单元测试失败并显示以下消息:
预期:“מנבוצץז”
但是是:“ זץצובנמ”
尽管实际结果更接近我在光栅化 PDF 中看到的结果,但我不能完全确定原始测试是错误的。
- C# 字符串中的希伯来语字符是否应该像打印的希伯来语文本一样从右到左阅读?
- .NET 堆栈的任何部分是否会篡改希伯来语字符串的方向?
- NUnit 呢?
- 嵌入在可搜索 PDF 中的希伯来语字符通常应该与光栅化文本的方向相同吗?
- 在决定是否“修复”这个单元测试之前我还应该知道什么?