我正在做一个项目,我需要阅读一些通用文本...我正在寻找任何 api,因为我可以阅读通用文本,也可以将其转换为 .csv 文件...任何人都可以帮助...使用windows操作系统上的java...
- - - - - - - - - - - - - 更多详情 - - - - - - - - - - - -------------------------------------------------- ---------------让我澄清一下:
假设我有一个 pdf 文档或任何文件类型的文档。我打算使用打印到通用文本打印机选项并以该格式获取文件。最后,我打算使用一些 API,它应该使我能够以编程方式读取此通用文本格式文件。我打算从这个通用文本文件中提取文本。
因此,无论是任何文件(.doc/.pdf/.xls 等 wtatever),我都打算使用打印选项创建一个通用文本格式文件。然后运行我的代码来读取这些文件并提取一些信息。
PS:假设我有一个带有标准字段的状态报告表。好的。但是,有些人可能会以 .pdf 格式提交,一些以 .doc 格式提交,一些以文本格式提交。但是,每个文档都包含相同的字段,但可能具有不同的布局。
现在,我正在寻找一个通用的解决方案,通过它我应该能够将每种文件类型转换为通用文本文件格式,然后应用一些逻辑来提取我的状态报告字段。