multibyte-characters - IronPdf 中的多字节字符读取问题

Question

我正在尝试IronPDF。我想将 PDF 元数据插入到使用 IronPDF 读取的数据库中。但是，IronPDF 无法读取元数据中的某些“ı”字符。在这些字符的位置留有空格。这是我的代码示例：

var md = PdfDocument.FromFile("___PATH OF PDF FILE___");
var article_title = md.MetaData.Title;

当我将粘贴字符串复制到 Notepad++ 时，它会给出如下结果：

这是应用程序视图的屏幕截图：

有没有办法解决这个问题或者这是 IronPDF 的一个错误？如果一切顺利，我当然会考虑购买。但当然，如果第一次尝试失败，请继续使用 iTextSharp。

编辑：首先，我为 Windows 道歉，这让我感到惊讶。我整天都在努力建立一个新系统，不幸的是它仍然没有安装视觉工作室等。我在下面添加了一个我遇到问题的文件，IronPDF 版本显示为 2019.7.0.0。

PDF 文件：https ://yadi.sk/d/HwP9JWRWTzMlSA

score 1 · Accepted Answer

首先，由于您没有向我们提供可使用的示例 PDF；我用谷歌搜索了一些包含土耳其字符元数据的土耳其 PDF 文档。这是我想出的文件：链接正如您在上面看到的作者元数据字段具有ı土耳其字符。

然后我创建了一个dotnet fiddle以使用 IronPDF 测试此文件（使用最新的可用版本 - 因为您没有指定任何版本）：使用 IronPDF 的示例

此示例的输出ElifCakroglu在复制到 Notepad++ 时显示完全相同的症状：

使用编码无助于解决此问题。因此，我创建了另一个 dotnet fiddle 来测试您的替代解决方案，即 iTextSharp：使用 iTextSharp 的示例

这次一切正常：ElifCakıroglu

注意：我还尝试创建 Word 2016 文档并将其保存为 PDF，然后将该文件与上述示例一起使用，但由于某种原因，它们都不起作用（不接受为有效的 PDF）。之后我尝试了在线 PDF 文档验证器，但文件很好。然后我使用在线转换器以默认设置更改 PDF 版本，并将输出 PDF 与两个样本一起使用，令人惊讶的是它们都正常工作。

我的结论是，iTextSharp 与包含土耳其字符元数据的两个文档一致，而 IronPDF 在 50% 的时间内正常工作。

score 0 · Accepted Answer

相信这个问题已经解决了，可以在 IronPdf 的 2020.9 release 分支中测试。

https://www.nuget.org/packages/IronPdf/

multibyte-characters - IronPdf 中的多字节字符读取问题

2 回答 2

Related

Reference