0

我需要这方面的帮助……尤其是因为我不知道从哪里开始……我是一名 IT 本科生,现在和我的同事一起在一家公司接受在职培训。

场景:公司要求我们创建一个程序来生成报告并将其存储在数据库中。将使用的数据库是 MySQL。至于用什么语言,我们在考虑VB.Net、Java、PHP。

该程序必须能够:

  1. 生成将通过电子邮件发送到办公室的报告
  2. 存储在数据库中
  3. 收集所有报告,整理这些报告
  4. 生成一份新报告,然后将其发送到他们的主要办公室
  5. 然后将其存储在自己的数据库中...

目前,我们仍在尝试确定程序将如何运行以及将使用哪种语言能够从文本文件(可以是 word 文档或 PDF 文件)中读取和提取数据。

该公司还希望该程序能够在线为未来的扩展做好准备。

现在,我们的问题是

  1. 有没有办法使用 Java、PHP、VB 从 PDF 或 Word 文件中提取数据,然后将其存储在 MySQL DB 中?
    • 如果有,是否可以在不使用任何第三方软件的情况下实施?
    • 我们选择使用 PDF 或 Word 文件类型的原因是,该文件应可打印以用于存档目的。
  2. 我们可以轻松使用哪种编程语言来解决上述问题?

    如果我提供的信息有点混乱,我想道歉。一旦我们本周能够与该公司交谈,我将提供更多信息。

    如果我发布的方式有问题,请原谅我。我只是尽我所能为您提供最好的信息。

4

2 回答 2

1

我会回答 Java,因为它是我在工作中使用的。

您可以轻松地从 Word 文件中提取文本或使用Apache POI构建新的 Word 文件

至于 PDF,iTextPDFBox都做得很好。

于 2012-06-20T08:26:49.383 回答
0

为什么不能使用第三方软件?如果可以的话,我会推荐类似How to read PDF files using Java? .

或者,读取 .doc 文件:http ://www.roseindia.net/tutorial/java/poi/readDocFile.html


无论如何,如果您不能使用 3rd 方工具,为什么不阅读规范并弄清楚如何从 PDF、DOC 和 DOCX 文件中提取文本呢?

在这里您可以找到 DOC 规范:http: //msdn.microsoft.com/en-us/library/cc313118.aspx

在这里您可以找到 PDF 格式规范: http: //www.adobe.com/devnet/pdf/pdf_reference.html

祝你好运!

于 2012-06-20T08:29:47.740 回答