我已将 pdf 文件存储在 MongoDB GridFS 中的集合uploads.chunks
和uploads.files
.
现在我需要提取pdf文件计划的文本内容来使用pdf-parse来实现这一点。
但是,pdf-parse 方法的“路径”参数必须是字符串类型或 Buffer 或 URL 的实例。
如何获取 PDF 文件内容作为“缓冲区”并将其传递给 pdf-parse 方法以获取 pdf 文本?
这是我当前的代码,它引用了从 Gridfs 读取块并转换为 Buffer的链接。不幸的是,下面的代码对我不起作用,我没有找到更多相关的文章。谢谢。
var readableStream = gfs.createReadStream(name);
var bufferArray = [];
readableStream.on('data',function(chunk){
bufferArray.push(chunk);
});
readableStream.on('end',function(){
var buffer = Buffer.concat(bufferArray);
deferred.resolve(buffer);
})