9

我正在拼命尝试将 phantomJS 生成的 PDF 输出到标准输出,就像这里

我得到的是一个空的 PDF 文件,虽然它的大小不是 0,但它显示一个空白页。

var page = require('webpage').create(),
system = require('system'),
address;

address = system.args[1];
page.paperSize = {format: 'A4'};

page.open(address, function (status) {
    if (status !== 'success') {
        console.log('Unable to load the address!');
        phantom.exit();
    } else {
        window.setTimeout(function () {
            page.render('/dev/stdout', { format: 'pdf' });
            phantom.exit();
        }, 1000);
    }
});

我这样称呼它:phantomjs rasterize.js http://google.com>test.pdf

我试图改变/dev/stdoutsystem.stdout但不是运气。将 PDF 直接写入文件没有任何问题。

我正在寻找一个跨平台的实现,所以我希望这可以在非 Linux 系统上实现。

4

3 回答 3

15

将输出写入Windows/dev/stdout//dev/stderr/在 Windows 上时,PhantomJS请执行以下步骤(如\phantomjs\src\webpage.cpprender中的方法所示):

  1. 如果没有,/dev/stdout//dev/stderr/分配一个临时文件路径。
  2. renderPdf使用临时文件路径调用。
  3. 将网页渲染到此文件路径。
  4. 将此文件的内容读入QByteArray.
  5. 调用QString::fromAscii字节数组并写入stdoutor stderr
  6. 删除临时文件。

首先,我为 构建了源代码PhantomJS,但注释掉了文件删除。在下一次运行中,我能够检查它渲染的临时文件,结果证明它完全没问题。我也尝试phantomjs.exe rasterize.js http://google.com > test.png以相同的结果运行。这立即排除了渲染问题,或者任何与 PDF 相关的问题,这意味着问题必须与数据写入的方式有关stdout

在这个阶段,我怀疑是否有一些文本编码恶作剧正在发生。从之前的运行中,我有同一个文件的有效和无效版本(在这种情况下是 PNG)。

使用一些 C# 代码,我运行了以下实验:

//Read the contents of the known good file.
byte[] bytesFromGoodFile = File.ReadAllBytes("valid_file.png");
//Read the contents of the known bad file.
byte[] bytesFromBadFile = File.ReadAllBytes("invalid_file.png");

//Take the bytes from the valid file and convert to a string
//using the Latin-1 encoding.
string iso88591String = Encoding.GetEncoding("iso-8859-1").GetString(bytesFromGoodFile);
//Take the Latin-1 encoded string and retrieve its bytes using the UTF-8 encoding.
byte[] bytesFromIso88591String = Encoding.UTF8.GetBytes(iso88591String);

//If the bytes from the Latin-1 string are all the same as the ones from the
//known bad file, we have an encoding problem.
Debug.Assert(bytesFromBadFile
    .Select((b, i) => b == bytesFromIso88591String[i])
    .All(c => c));

请注意,我使用 ISO-8859-1 编码作为c-stringsQT默认编码。事实证明,所有这些字节都是相同的。该练习的目的是看看我是否可以模仿导致有效数据无效的编码步骤。

为了进一步的证据,我调查了 \phantomjs\src\system.cpp\phantomjs\src\filesystem.cpp

  • system.cpp中,该类包含对和的对象的System引用,这些对象被设置为使用编码。FilestdoutstdinstderrUTF-8
  • 写入时stdout,将调用对象的write函数。File此函数支持写入文本文件和二进制文件,但由于System类初始化它们的方式,所有写入都将被视为写入文本文件。

所以问题归结为:我们需要对 执行二进制写入stdout,但我们的写入最终被视为文本并对其应用了编码,导致生成的文件无效。


鉴于上述问题,我看不到任何方法可以在不更改PhantomJS代码的情况下在 Windows 上按照您想要的方式工作。所以他们在这里:

第一个更改将提供一个函数,我们可以调用File对象来显式执行二进制写入。

在 中添加以下函数原型\phantomjs\src\filesystem.h

bool binaryWrite(const QString &data);

并将其定义放入\phantomjs\src\filesystem.cpp(该方法的代码来自write该文件中的方法):

bool File::binaryWrite(const QString &data)
{
    if ( !m_file->isWritable() ) {
        qDebug() << "File::write - " << "Couldn't write:" << m_file->fileName();
        return true;
    }

    QByteArray bytes(data.size(), Qt::Uninitialized);
    for(int i = 0; i < data.size(); ++i) {
        bytes[i] = data.at(i).toAscii();
    }
    return m_file->write(bytes);
}

在第 920 行左右,\phantomjs\src\webpage.cpp您将看到如下代码块:

    if( fileName == STDOUT_FILENAME ){
#ifdef Q_OS_WIN32
        _setmode(_fileno(stdout), O_BINARY);            
#endif      

        ((File *)system->_stderr())->write(QString::fromAscii(name.constData(), name.size()));

#ifdef Q_OS_WIN32
        _setmode(_fileno(stdout), O_TEXT);
#endif          
    }

将其更改为:

   if( fileName == STDOUT_FILENAME ){
#ifdef Q_OS_WIN32
        _setmode(_fileno(stdout), O_BINARY);
        ((File *)system->_stdout())->binaryWrite(QString::fromAscii(ba.constData(), ba.size()));
#elif            
        ((File *)system->_stderr())->write(QString::fromAscii(name.constData(), name.size()));
#endif      

#ifdef Q_OS_WIN32
        _setmode(_fileno(stdout), O_TEXT);
#endif          
    }

所以代码替换所做的是调用我们的新binaryWrite函数,但这样做是由一个#ifdef Q_OS_WIN32块保护的。我这样做是为了保留非 Windows 系统上的旧功能,这些系统似乎没有表现出这个问题(或者是吗?)。请注意,此修复仅适用于写入stdout- 如果您愿意,您可以随时应用它,stderr但在这种情况下可能并不重要。

如果您只想要一个预构建的二进制文件(谁不想要?),您可以在我的SkyDrivephantomjs.exe上找到这些修复程序。我的版本大约是 19MB,而我之前下载的只有大约 6MB,尽管我按照这里的说明进行操作,所以应该没问题。

于 2014-01-17T11:50:06.443 回答
8

是的,没错 ISO-8859-1 是 QT 的默认编码,因此您需要将所需的参数添加到命令行 --output-encoding=ISO-8859-1 以便不会损坏 pdf 输出

IE

phantomjs.exe rasterize.js --output-encoding=ISO-8859-1 < input.html > output.pdf

和 rasterize.js 看起来像这样(经过测试,适用于 Unix 和 Windows)

var page = require('webpage').create(),
system = require('system');

page.viewportSize = {width: 600, height: 600};
page.paperSize = {format: 'A4', orientation: system.args[1], margin: '1cm'};

page.content = system.stdin.read();

window.setTimeout(function () {
    try {
        page.render('/dev/stdout', {format: 'pdf'});
    }
    catch (e) {
        console.log(e.message + ';;' + output_file);
    }
    phantom.exit();
}, 1000);

或者,您可以使用 stdout 设置编码,如果您从 UTF-8 流中读取,那么您可能还必须为 stdin 设置编码;

system.stdout.setEncoding('ISO-8859-1');
system.stdin.setEncoding('UTF-8');
page.content = system.stdin.read();
于 2016-05-23T00:42:04.483 回答
0

是否必须将pdf输出到stdout?您不能将代码更改为:

var page = require('webpage').create(),
system = require('system'),
address;

address = system.args[1];
output  = system.args[2];
page.paperSize = {format: 'A4'};

page.open(address, function (status) {
    if (status !== 'success') {
        console.log('Unable to load the address!');
        phantom.exit();
    } else {
        window.setTimeout(function () {
            page.render(output, { format: 'pdf' });
            phantom.exit();
        }, 1000);
    }
});

并像这样使用它:

phantomjs rasterize.js http://google.com test.pdf
于 2014-01-15T19:41:11.120 回答