1

我正在 macOS 终端上试验 xpdf (pdftotext)。我使用一种语言包(日语)。如果我这样调用可执行文件(从 lib 目录),一切正常:

lib kelly$ ./p2t -enc UTF-8 jp.pdf 

和我的数据结构

files/lib/pdftotext
files/lib/xpdfrc
files/lib/jp.pdf #file to convert
files/options/Enc/jp/ # Here I have the language package files

和以下编辑的 xpdfrc 配置文件:

#----- begin Japanese support package (2011-sep-02)
cidToUnicode    Adobe-Japan1    ../options/Enc/jp/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP ../options/Enc/jp/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      ../options/Enc/jp/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   ../options/Enc/jp/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    ../options/Enc/jp/CMap
toUnicodeDir            ../options/Enc/jp/CMap
#----- end Japanese support package

我遇到的问题是从不同的目录调用“pdftoext”,例如从“文件”。在这种情况下,看不到配置文件指向的文件。

files kelly$ ./lib/p2t -enc UTF-8 ./lib/jp.pdf 

我收到以下错误:

Syntax Error: Unknown character collection 'Adobe-Japan1'

而且生成的文件是垃圾。

关于如何更改配置文件的任何想法?

4

1 回答 1

0

我能够解决类似的问题。我用 brew cask 安装了 pdftotext。

安装是使用以下命令完成的

$ brew cask install pdftotext
$ pdftotext -v
pdftotext version 3.03
Copyright 1996-2011 Glyph & Cog, LLC

并将 xpdfrc/language 支持包放在我做的以下目录中。

ls /usr/local/etc/xpdfrc
/usr/local/etc/xpdfrc

我从这里下载了日语语言包。 https://www.xpdfreader.com/download.html

$ tree /usr/local/share/xpdf
/usr/local/share/xpdf
└── japanese
    ├── Adobe-Japan1.cidToUnicode
    ├── CMap
    │   ├── 78-EUC-H
    │   ├── 78-EUC-V
    │   ├── 78-H
    │   ├── 78-RKSJ-H
    │   ├── 78-RKSJ-V
    │   ├── 78-V
    │   ├── 78ms-RKSJ-H
    │   ├── 78ms-RKSJ-V
    │   ├── 83pv-RKSJ-H
    │   ├── 90ms-RKSJ-H
    │   ├── 90ms-RKSJ-UCS2
    │   ├── 90ms-RKSJ-V
    │   ├── 90msp-RKSJ-H
    │   ├── 90msp-RKSJ-V
    │   ├── 90pv-RKSJ-H
    │   ├── 90pv-RKSJ-UCS2
    │   ├── 90pv-RKSJ-UCS2C
    │   ├── 90pv-RKSJ-V
    │   ├── Add-H
    │   ├── Add-RKSJ-H
    │   ├── Add-RKSJ-V
    │   ├── Add-V
    │   ├── Adobe-Japan1-0
    │   ├── Adobe-Japan1-1
    │   ├── Adobe-Japan1-2
    │   ├── Adobe-Japan1-3
    │   ├── Adobe-Japan1-4
    │   ├── Adobe-Japan1-5
    │   ├── Adobe-Japan1-6
    │   ├── Adobe-Japan1-UCS2
    │   ├── EUC-H
    │   ├── EUC-V
    │   ├── Ext-H
    │   ├── Ext-RKSJ-H
    │   ├── Ext-RKSJ-V
    │   ├── Ext-V
    │   ├── H
    │   ├── Hankaku
    │   ├── Hiragana
    │   ├── Katakana
    │   ├── NWP-H
    │   ├── NWP-V
    │   ├── RKSJ-H
    │   ├── RKSJ-V
    │   ├── Roman
    │   ├── UniJIS-UCS2-H
    │   ├── UniJIS-UCS2-HW-H
    │   ├── UniJIS-UCS2-HW-V
    │   ├── UniJIS-UCS2-V
    │   ├── UniJIS-UTF16-H
    │   ├── UniJIS-UTF16-V
    │   ├── UniJIS-UTF32-H
    │   ├── UniJIS-UTF32-V
    │   ├── UniJIS-UTF8-H
    │   ├── UniJIS-UTF8-V
    │   ├── UniJIS2004-UTF16-H
    │   ├── UniJIS2004-UTF16-V
    │   ├── UniJIS2004-UTF32-H
    │   ├── UniJIS2004-UTF32-V
    │   ├── UniJIS2004-UTF8-H
    │   ├── UniJIS2004-UTF8-V
    │   ├── UniJISPro-UCS2-HW-V
    │   ├── UniJISPro-UCS2-V
    │   ├── UniJISPro-UTF8-V
    │   ├── UniJISX0213-UTF32-H
    │   ├── UniJISX0213-UTF32-V
    │   ├── UniJISX02132004-UTF32-H
    │   ├── UniJISX02132004-UTF32-V
    │   ├── V
    │   └── WP-Symbol
    ├── EUC-JP.unicodeMap
    ├── ISO-2022-JP.unicodeMap
    ├── README
    ├── Shift-JIS.unicodeMap
    └── add-to-xpdfrc

2 directories, 76 files

xpdfrc的内容如下

$ cat /usr/local/etc/xpdfrc
cidToUnicode    Adobe-Japan1    /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    /usr/local/share/xpdf/japanese/CMap
toUnicodeDir            /usr/local/share/xpdf/japanese/CMap
于 2020-06-16T07:31:02.843 回答