79

我一直在尝试使用 Pandoc 将一些 Markdown 转换为 PDF 文件。这是 Pandoc 不会为我转换的示例:

# Header!

## Sub Header

themselves derived respectively from the Greek ἀναρχία i.e. 'anarchy'

这只是我从维基百科数据库转储顶部获取的内容。潘多克根本不喜欢这样。这是它给我的错误信息:

pandoc: Error producing PDF from TeX source.
! Package inputenc Error: Unicode char \u8:ἀ not set up for use with LaTeX.

See the inputenc package documentation for explanation.
Type  H <return>  for immediate help.
 ...                                              

l.53 ...es derived respectively from the Greek ἀ

我可以给它一个命令开关来解决这个问题吗?我尝试按照建议做这样的事情,但它失败了:

iconv -t utf-8 test.md | pandoc -o test.pdf

更新在遵循以下约翰的建议之前,请参阅此

更新 2这是最终让它工作的命令。希望这会帮助某人:

pandoc test2.md -o test2.pdf --latex-engine=xelatex --template=my.latex --variable mainfont="DejaVu Serif" --variable sansfont=Arial

这是以下内容my.latex

\documentclass[$if(fontsize)$$fontsize$,$endif$$if(lang)$$lang$,$endif$$if(papersize)$$papersize$,$endif$]{$documentclass$}
\usepackage[T1]{fontenc}
\usepackage{lmodern}
\usepackage{amssymb,amsmath}
\usepackage{ifxetex,ifluatex}
\usepackage{fixltx2e} % provides \textsubscript
% use microtype if available
\IfFileExists{microtype.sty}{\usepackage{microtype}}{}
% use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
  \usepackage[utf]{inputenc}
  \usepackage{ucs}
$if(euro)$
  \usepackage{eurosym}
$endif$
\else % if luatex or xelatex
  \usepackage{fontspec}
  \ifxetex
    \usepackage{xltxtra,xunicode}
  \fi
  \defaultfontfeatures{Mapping=tex-text,Scale=MatchLowercase}
  \setromanfont{TeX Gyre Pagella}
  \newcommand{\euro}{€}
$if(mainfont)$
    \setmainfont{$mainfont$}
$endif$
$if(sansfont)$
    \setsansfont{$sansfont$}
$endif$
$if(monofont)$
    \setmonofont{$monofont$}
$endif$
$if(mathfont)$
    \setmathfont{$mathfont$}
$endif$
\fi
$if(geometry)$
\usepackage[$for(geometry)$$geometry$$sep$,$endfor$]{geometry}
$endif$
$if(natbib)$
\usepackage{natbib}
\bibliographystyle{plainnat}
$endif$
$if(biblatex)$
\usepackage{biblatex}
$if(biblio-files)$
\bibliography{$biblio-files$}
$endif$
$endif$
$if(listings)$
\usepackage{listings}
$endif$
$if(lhs)$
\lstnewenvironment{code}{\lstset{language=Haskell,basicstyle=\small\ttfamily}}{}
$endif$
$if(highlighting-macros)$
$highlighting-macros$
$endif$
$if(verbatim-in-note)$
\usepackage{fancyvrb}
$endif$
$if(tables)$
\usepackage{longtable}
$endif$
$if(graphics)$
\usepackage{graphicx}
% We will generate all images so they have a width \maxwidth. This means
% that they will get their normal width if they fit onto the page, but
% are scaled down if they would overflow the margins.
\makeatletter
\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth
\else\Gin@nat@width\fi}
\makeatother
\let\Oldincludegraphics\includegraphics
\renewcommand{\includegraphics}[1]{\Oldincludegraphics[width=\maxwidth]{#1}}
$endif$
\ifxetex
  \usepackage[setpagesize=false, % page size defined by xetex
              unicode=false, % unicode breaks when used with xetex
              xetex]{hyperref}
\else
  \usepackage[unicode=true]{hyperref}
\fi
\hypersetup{breaklinks=true,
            bookmarks=true,
            pdfauthor={$author-meta$},
            pdftitle={$title-meta$},
            colorlinks=true,
            urlcolor=$if(urlcolor)$$urlcolor$$else$blue$endif$,
            linkcolor=$if(linkcolor)$$linkcolor$$else$magenta$endif$,
            pdfborder={0 0 0}}
\urlstyle{same}  % don't use monospace font for urls
$if(links-as-notes)$
% Make links footnotes instead of hotlinks:
\renewcommand{\href}[2]{#2\footnote{\url{#1}}}
$endif$
$if(strikeout)$
\usepackage[normalem]{ulem}
% avoid problems with \sout in headers with hyperref:
\pdfstringdefDisableCommands{\renewcommand{\sout}{}}
$endif$
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}
\setlength{\emergencystretch}{3em}  % prevent overfull lines
$if(numbersections)$
$else$
\setcounter{secnumdepth}{0}
$endif$
$if(verbatim-in-note)$
\VerbatimFootnotes % allows verbatim text in footnotes
$endif$
$if(lang)$
\ifxetex
  \usepackage{polyglossia}
  \setmainlanguage{$mainlang$}
\else
  \usepackage[$lang$]{babel}
\fi
$endif$
$for(header-includes)$
$header-includes$
$endfor$

$if(title)$
\title{$title$}
$endif$
\author{$for(author)$$author$$sep$ \and $endfor$}
\date{$date$}

\begin{document}
$if(title)$
\maketitle
$endif$

$for(include-before)$
$include-before$

$endfor$
$if(toc)$
{
\hypersetup{linkcolor=black}
\setcounter{tocdepth}{$toc-depth$}
\tableofcontents
}
$endif$
$body$

$if(natbib)$
$if(biblio-files)$
$if(biblio-title)$
$if(book-class)$
\renewcommand\bibname{$biblio-title$}
$else$
\renewcommand\refname{$biblio-title$}
$endif$
$endif$
\bibliography{$biblio-files$}

$endif$
$endif$
$if(biblatex)$
\printbibliography$if(biblio-title)$[title=$biblio-title$]$endif$

$endif$
$for(include-after)$
$include-after$

$endfor$
\end{document}
4

7 回答 7

43

使用该--pdf-engine=xelatex选项。

于 2013-08-12T14:32:17.153 回答
24

默认情况下,Pandocpdflatex在将 markdown 文件转换为 pdf 文件时使用引擎。pdflatex不能很顺利地处理 Unicode 字符xelatex。你应该试试xelatex但是,仅仅使用xelatex命令是不够的。通常情况下,您需要选择合适的字体,其中包含要排版的 Unicode 字符的字形。

我是中文用户,所以以中文为例。如果您有一个test.md包含以下内容的内容:

你好汉字

您可以使用以下命令编译此降价文件:

pandoc --pdf-engine=xelatex -V CJKmainfont="KaiTi" test.md -o test.pdf

在上述命令中,--pdf-engine=xelatex用于选择 LaTeX 引擎(对于新版本的 Pandoc,该--latex-engine选项已弃用)。-V CJKmainfont="KaiTi"用于选择支持中文的合适字体。对于其他语言,您可以使用 flag -C mainfont="<FONT_NAME>"

如何找到支持您的语言的字体

为了找到支持您的语言的字体,您需要知道您的语言代码。然后,如果您使用的是 Linux 系统或安装了TeX Live的 Windows 系统。您可以使用以下命令为您的语言查找有效字体:

fc-list :lang=zh #find the font which support Chinese (language code is `zh`)

我的 Linux 系统上的输出如下所示在此处输入图像描述

如果您选择使用例如字体Source Han Serif CN,则使用以下命令编译您的降价文件:

 pandoc --pdf-engine=xelatex -V CJKmainfont="Source Han Serif CN" test.md -o test.pdf
于 2018-01-04T07:33:59.013 回答
14

更新:下面的答案似乎对 pandoc 1.x 有效,但在更高版本中,语法已经改变


五年后回到这篇文章,问题仍然存在。命令

pandoc -s test.md -t latex -o test.pdf

test.md当包含非拉丁字符的文本时失败,包括希腊语、西里尔文、CJK、希伯来语和阿拉伯语。

LaTeX 是在 Unicode 之前设计的,它对不同字符集的支持在某些领域很强大,但远非全面,因此使用 XeLaTeX 的建议是有效的,但需要仔细选择主要字体,因为没有自动选择。

以下是可能出现的问题和一些解决方案的小分类。全部使用 Pandoc 1.19 进行测试

西里尔

通过 T2A 字体编码提供对 LaTeX 中西里尔字母的支持。

考虑一个小样本:

# Header

## Subheader

Tetris (Russian: Тетрис) quoting Wikipedia is a tile-matching puzzle 
video game

使用 pandoc 运行此示例将失败:

! Package inputenc Error: Unicode char Т (U+422)
(inputenc)                not set up for use with LaTeX.

See the inputenc package documentation for explanation.

修复可用,因为fontenc选项是default.latex模板中的预定义变量。

运行这个例子

pandoc -t latex -o tetris.pdf -V fontenc=T2A cyrillic.md

会产生正确的渲染

正确呈现带有西里尔字符的文本

但是,这将无法正确处理其他语言功能,例如连字符。更好的方法是使用 Babel 并让它选择正确的字体编码。

pandoc -t latex -o tetris.pdf -V lang -V babel-lang=russian cyrillic.md

或者在 Markdown 中使用 Babel 命令切换语言

# Header

## Subheader

Tetris (Russian: \foreignlanguage{russian}{Тетрис}) quoting Wikipedia 
is a tile-matching puzzle video game

并运行

pandoc -t latex -o tetris.pdf -V lang -V babel-lang=english \
       -V babel-otherlangs=russian cyrillic2.md

希腊语

原始帖子中的示例包含来自主要和扩展希腊 Unicode 代码页的字符。

无论如何,广泛使用的 LGR 希腊字体编码不包括在 LaTeX 3 项目中,它被归类为本地编码,即根据LaTeX 编码指南,它可能因站点和系统而异。

在 TeX Live 上,需要安装以下软件包texlive-greek-inputenctexlive-greek-fontenctexlive-cbfonts. 请注意,您需要 Babel 3.9 或更高版本。然而结果

pandoc -t latex -o anarchy.pdf -V fontenc=LGR greek.md

可能会出现意想不到的情况。

将希腊语和拉丁语字符键入为希腊语的文本

为了纠正这个问题,必须正确设置 LaTeX Babel 包。并插入命令在原文中切换语言:

# Header!

## Sub Header

themselves derived respectively from the Greek \textgreek{ἀναρχία} 
i.e. 'anarchy'

使用以下命令编译它

pandoc -s greek2.md -t latex -V fontenc=T2A -V lang -V babel-lang=english \
    -V babel-otherlangs=greek -o greek.pdf

将完全按照您的预期产生输出:

正确呈现希腊字符的文本

XeLaTeX

如果我们使用 XeLaTeX,则不需要所有这些。

只需运行原始示例

pandoc -s greek.md --latex-engine=xelatex -t latex -o greek.pdf

会产生

省略了希腊字符的文本

因为字体在希腊字符位置中不包含任何内容,所以输出包含一些空格。

选择一种流行的字体作为新字体mainfont会有所帮助

pandoc -s greek.md --latex-engine=xelatex \
    -V mainfont="Liberation Serif" -t latex -o greek.pdf

仅包含基本希腊字符的文本正确呈现

但是,扩展希腊代码页中的字符(例如带有 psili 重音的小写字母 alpha)不会被渲染。

The Font Setup for Greek with XeTeX/LuaTeX Guide 建议使用 DejaVu、Libertine 或 Free 字体系列。

确实,使用DejaVu SerifLinux Libertine O以及Tempora可能还有其他一些字体,结果将符合预期。请参见下面使用 XeLaTeX 和 Linux Libertine 字体进行的渲染。

pandoc -s greek.md --latex-engine=xelatex -V mainfont="Linux Libertine O" \
      -t latex -o greek.pdf

使用 XeLaTeX 和 Libertine 字体正确呈现的带有希腊字符的文本

于 2018-06-02T08:32:01.017 回答
5

适用于西里尔字符

pandoc myfile.md --pdf-engine=xelatex -V mainfont=Arial
于 2019-06-04T20:35:26.320 回答
3

--latex-engine=xelatex如前所述,您可以使用,但我发现最好的方法是使用lang变量在标题中指定文档语言,如下所示lang: ru-RU:我的 debian 工作站上的一个工作示例:

---
title: Lady Macbeth de Mzensk (Chostakovitch, livret d'Alexandre Preis, 1934)
lang: ru-RU
---

# Acte I / Tableau 1

*[Народ ненадежный]*  
Ха, ха, ха, ха, ха, ха, ха. *[...]* Чуыствуем  
На кого ты нас покидаешь?  
Без хозяина будет скучно,  
скучно, тоскливо, безрадостно.

Не работа. Без тебя невеселье. Воз вращайся  
Как можно скорей, скорей !

然后你可以启动:

$ pandoc -o your-file-output.pdf your-source-file.md
于 2019-03-03T21:35:57.110 回答
1

如果您使用的是 LaTeX 中间输出,那么您可以使用 inline\mbox{t\'ext}来获取重音字符。如果没有\mbox{},Pandoc 解析器通常无法正确解释反斜杠。

于 2016-04-26T21:09:45.090 回答
0

我有一个类似的问题,试图让数学符号出现在输出中。

正如其他人所提到的,对于最近的 pandoc 版本(在我的例子中是 v2.2.3.2),使用的选项是pdf-engine=xelatex. 在这种情况下,我不需要指定字体:

pandoc -o MyDoc.pdf --pdf-engine=xelatex  MyDoc.md

我确实收到了一个错误,即缺少 latinmodern-math 字体。我安装它使用:

tlmgr install collection-fontsrecommended
于 2019-04-30T15:58:42.950 回答