我正在开发一个 Web 应用程序,用户可以在其中上传 Microsoft Office 文档文件。现在,我们的服务器正在运行带有 Express.js 的 Node.JS,并且我们托管在 Heroku 上。正因为如此,我不认为我可以安装诸如 abiword 或 catdoc 之类的程序。我可以处理文件上传,但无法解析文档的内容。
如何读取 doc 文件的内容?然后将信息放入数据库中。保留基本格式(粗体、斜体、下划线)会很好,但不是必需的。
我正在开发一个 Web 应用程序,用户可以在其中上传 Microsoft Office 文档文件。现在,我们的服务器正在运行带有 Express.js 的 Node.JS,并且我们托管在 Heroku 上。正因为如此,我不认为我可以安装诸如 abiword 或 catdoc 之类的程序。我可以处理文件上传,但无法解析文档的内容。
如何读取 doc 文件的内容?然后将信息放入数据库中。保留基本格式(粗体、斜体、下划线)会很好,但不是必需的。
办公包:npm install office
似乎至少提供了部分答案。我用它来读取 Excel 文件,到目前为止还没有尝试过任何 Word 文档。
似乎还没有。请参阅下面的内容可能会有所帮助。
您可以使用 mammoth 解析 .docx 文件https://www.npmjs.com/package/mammoth 和 xlsx 解析 .xlsx 文件https://github.com/SheetJS/js-xlsx