1

我正在做一个项目,我需要阅读一些通用文本...我正在寻找任何 api,因为我可以阅读通用文本,也可以将其转换为 .csv 文件...任何人都可以帮助...使用windows操作系统上的java...

- - - - - - - - - - - - - 更多详情 - - - - - - - - - - - -------------------------------------------------- ---------------让我澄清一下:

假设我有一个 pdf 文档或任何文件类型的文档。我打算使用打印到通用文本打印机选项并以该格式获取文件。最后,我打算使用一些 API,它应该使我能够以编程方式读取此通用文本格式文件。我打算从这个通用文本文件中提取文本。

因此,无论是任何文件(.doc/.pdf/.xls 等 wtatever),我都打算使用打印选项创建一个通用文本格式文件。然后运行我的代码来读取这些文件并提取一些信息。

PS:假设我有一个带有标准字段的状态报告表。好的。但是,有些人可能会以 .pdf 格式提交,一些以 .doc 格式提交,一些以文本格式提交。但是,每个文档都包含相同的字段,但可能具有不同的布局。

现在,我正在寻找一个通用的解决方案,通过它我应该能够将每种文件类型转换为通用文本文件格式,然后应用一些逻辑来提取我的状态报告字段。

4

4 回答 4

1

在Java中,这或多或少是您读取文本文件所需的,假设它是逗号分隔的(如果您需要其他内容,只需更改“line.split”方法中的字符串)。它也跳过了标题。

    public void parse(String filename) throws IOException {
        File file = new File(filename);
        FileInputStream fis = new FileInputStream(file);
        InputStreamReader isr = new InputStreamReader(fis);
        BufferedReader br = new BufferedReader(isr);
        String line;
        int header = 1;
        while ((line = br.readLine()) != null) {
            if (header == 1) {
                header = 2;
                continue; // skips header
            }
            String[] splitter = line.split(",");
                    // do whatever
                    System.out.println(splitter[0]);
        }
    }
于 2009-11-27T14:04:47.003 回答
1

CSV 是列中数据的一种格式。例如,它对于维基百科的文章不是很有用。

Apache Tika 库将获取各种数据并将其转换为平淡无奇的 XML,您可以从中随意制作 CSV。

如果您编辑您的问题以澄清“通用”与“生成”,并提供有关数据的更多信息,这将有所帮助。

至于 Windows 打印机驱动程序,您是否希望将“打印到 pdf”作为“打印到 csv”?如果是这样,我怀疑您需要从打印机驱动程序的 MSDN 示例开始,并以艰难的方式编写代码。

所谓的“通用文本文件格式”不是结构化格式。对于打印机系统的任何给定输入,您会在其中找到什么是完全不可预测的。

于 2009-11-27T13:20:58.273 回答
0

一本通用的免费书籍:Python 中的文本处理

于 2009-11-27T12:36:18.967 回答
0

刚刚使用标准的 Java 类进行 I/O:

BufferedWriter、文件、FileWriter、IOException、PrintWriter

.csv 只是一个逗号分隔值文件。因此,只需使用 .csv 扩展名命名您的输出文件。

您还需要弄清楚您希望如何拆分内容。

以下是帮助您入门的 Java 示例:

写入文本文件

如何从文件中读取行

于 2009-11-27T13:07:52.810 回答