java - 使用 iText 库从 .xhtml 转换为 .pdf 时无法设置希伯来字母的 RTL 方向

Question

我正在尝试使用 iText 库将带有希伯来字符（UTF-8）的 *.xhtml 转换为 PDF，但我以相反的顺序获取所有字母。据我从这个问题了解到，我只能为ColumnText和PdfCell对象设置 RTL：

阿拉伯语（和希伯来语）只能在 ColumnText 和 PdfPCell 的上下文中正确呈现。

所以我怀疑是否可以将整个 *.xhtml 页面转换为 PDF？

这是我尝试导入的 *.xhtml 文件：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>
  <title>Title of document</title>
</head>

<body style="font-size:12.0pt; font-family:Arial">
  שלום עולם
</body>

</html>

这是我使用的 Java 代码：

public static void convert() throws Exception{
            Document document = new Document();
            PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("import.pdf"));
            writer.setRunDirection(PdfWriter.RUN_DIRECTION_RTL);
            document.open();

            String str = null;
            BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream("import.xhtml"), "UTF8"));
            StringBuilder sb = new StringBuilder();

            while ((str = in.readLine()) != null) {
               System.out.println(str);
                sb.append(str);
            }
            in.close();


            XMLWorkerHelper worker = XMLWorkerHelper.getInstance();

            InputStream is = new ByteArrayInputStream(sb.toString().getBytes(StandardCharsets.UTF_8));
            worker.parseXHtml(writer, document, is, Charset.forName("UTF-8"));

            document.close();
        }
    }

这是我到目前为止得到的：

这是我得到的结果

感谢您的任何帮助。

score 1 · Accepted Answer

请看一下ParseHtml10示例。在这个例子中，我们使用了hebrew.html文件：

<html>

<head>
  <title>Hebrew text</title>
</head>

<body style="font-size:12.0pt; font-family:Arial">
<div dir="rtl" style="font-family: Noto Sans Hebrew">שלום עולם</div>
</body>

</html>

我们使用以下代码将其转换为 PDF：

public void createPdf(String file) throws IOException, DocumentException {
    // step 1
    Document document = new Document();
    // step 2
    PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file));
    // step 3
    document.open();
    // step 4
    // Styles
    CSSResolver cssResolver = new StyleAttrCSSResolver();
    XMLWorkerFontProvider fontProvider = new XMLWorkerFontProvider(XMLWorkerFontProvider.DONTLOOKFORFONTS);
    fontProvider.register("resources/fonts/NotoSansHebrew-Regular.ttf");
    CssAppliers cssAppliers = new CssAppliersImpl(fontProvider);
    HtmlPipelineContext htmlContext = new HtmlPipelineContext(cssAppliers);
    htmlContext.setTagFactory(Tags.getHtmlTagProcessorFactory());

    // Pipelines
    PdfWriterPipeline pdf = new PdfWriterPipeline(document, writer);
    HtmlPipeline html = new HtmlPipeline(htmlContext, pdf);
    CssResolverPipeline css = new CssResolverPipeline(cssResolver, html);

    // XML Worker
    XMLWorker worker = new XMLWorker(css, true);
    XMLParser p = new XMLParser(worker);
    p.parse(new FileInputStream(HTML), Charset.forName("UTF-8"));;
    // step 5
    document.close();
}

结果看起来像hebrew.pdf：

在此处输入图像描述

您需要克服哪些障碍？

您需要将文本包装在 a<div>或 a等元素中<td>。
您需要添加属性dir="rtl"来定义方向。
您需要确保您使用的字体知道如何显示希伯来语。我为希伯来语使用了 NOTO 字体。这是 Google 在其程序中分发的字体之一，为每种可能的语言提供字体。

我看不懂希伯来语，但我希望生成的 PDF 是正确的，这可以解决您的问题。

重要提示：此解决方案至少需要 iText 和 XML Worker 5.5.5，因为对dir属性的支持是在5.5.4中引入并在 5.5.5中改进的。

java - 使用 iText 库从 *.xhtml 转换为 *.pdf 时无法设置希伯来字母的 RTL 方向

1 回答 1

Related

Reference

java - 使用 iText 库从 .xhtml 转换为 .pdf 时无法设置希伯来字母的 RTL 方向