我正在寻找一个可以打开 ppt、pptx、doc、docx 文件的库来解析它并从中提取所有对象。
例如,在 ppt 中,它可以提取所有对象属性,如图像、文本、表格自动形状等。然后为我提供对象位置/大小和格式,如字体大小/颜色/粗体等。对于图像,可以保存每个图像到 jpg 文件。图书馆还应该能够拍摄整张幻灯片的快照。
我已经尝试过这样做,但在获取此信息时并不准确。不会提取所有属性加上它的导出,因为图像不准确。使用开放式办公室图书馆有什么想法吗?
我愿意使用 Java 或 C++ 库。
我正在寻找一个可以打开 ppt、pptx、doc、docx 文件的库来解析它并从中提取所有对象。
例如,在 ppt 中,它可以提取所有对象属性,如图像、文本、表格自动形状等。然后为我提供对象位置/大小和格式,如字体大小/颜色/粗体等。对于图像,可以保存每个图像到 jpg 文件。图书馆还应该能够拍摄整张幻灯片的快照。
我已经尝试过这样做,但在获取此信息时并不准确。不会提取所有属性加上它的导出,因为图像不准确。使用开放式办公室图书馆有什么想法吗?
我愿意使用 Java 或 C++ 库。
在工作中,我们使用 openoffice Java api 从 ppt/pptx 文件中提取图像。我使用了这里的文档。我很确定您可以使用该指南中的信息来做您需要的事情。
祝你好运。
一种选择是apache poi库——周围有例子,而且周围的材料似乎比 openoffice API 上的要多。