0

我正在为一个在线图书馆开发一个网络应用程序。我想从将要上传的 PDF 中提取元数据,为此我使用 nodejs 库 pdf.js-extract 和 multer-gridfs-storage 进行上传。问题是我收到一个 PDF 文件 ( req.file) 并且该函数需要 PDF 文件的路径或链接,因此显示错误

"TypeError [ERR_INVALID_ARG_TYPE]: The "path" argument must be one of type string, Buffer, or URL. Received type object"

我想知道是否有办法将文件作为链接传递、临时在本地保存文件或找到另一个适合我需要的库。

这是我当前的代码。

const PDFExtract  = require('pdf.js-extract').PDFExtract;

app.post('/upload', upload.single('file'), (req, res) => {
  const pdfExtract = new PDFExtract();
  const options = {};

  pdfExtract.extract(req.file, options, (err, data) => {
      if (err){
        res.status(404).send({ message: err });
      }
      res.status(200).send({ message: data });
  });
});

(编辑澄清)我正在使用带有gridFS的multer将文件上传到mongoose。

const multer = require('multer');
const GridFsStorage = require('multer-gridfs-storage');

// Create storage engine
const storage = new GridFsStorage({
  url: mongoURI,
  file: (req, file) => {
    return new Promise((resolve, reject) => {
      crypto.randomBytes(16, (err, buf) => {
        if (err) {
          return reject(err);
        }
        const filename = buf.toString('hex') + path.extname(file.originalname);
        const fileInfo = {
          filename: filename,
          bucketName: 'uploads'
        };
        resolve(fileInfo);
      });
    });
  }
});
const upload = multer({ storage });

受 Oliver Nybo 启发的解决方案

app.post('/upload', upload.single('file'), (req, res) => {
  const pdfExtract = new PDFExtract();
  const options = {};

  var readableStream = gfs.createReadStream({ filename : req.file.filename });
  var buff;

  var bufferArray = [];
  readableStream.on('data',function(chunk){  
      bufferArray.push(chunk);
  });
  readableStream.on('end',function(){
      var buffer = Buffer.concat(bufferArray);
      buff=buffer;
      pdfExtract.extractBuffer(buff, options, (err, data) => {
        if (err) {
          res.status(404).send({ message: err });
        }
        res.status(200).send({ message: data });
      });
  })
});
4

1 回答 1

1

根据multer的api文档,可以req.file.path用来获取上传文件的完整路径。

const PDFExtract  = require('pdf.js-extract').PDFExtract;

app.post('/upload', upload.single('file'), (req, res) => {
  const pdfExtract = new PDFExtract();
  const options = {};

  pdfExtract.extract(req.file.path, options, (err, data) => {
      if (err){
        res.status(404).send({ message: err });
      }
      res.status(200).send({ message: data });
  });
});

编辑:我刚刚阅读了multer 选项,并且有一个名为preservePath.

preservePath-保留文件的完整路径,而不仅仅是基本名称

编辑2:我认为您需要使用gridfs-stream从数据库中提取文件,然后将其转换为缓冲区(如在线程中),然后使用 PDFExtract 的extractBuffer功能。

于 2019-05-07T09:35:27.913 回答