我正在尝试编写一个程序来读取 docx 文件并检查某些文本是否是彩色的。例如,想象一下如果这句话中所有加粗的单词实际上都是用某种任意颜色书写的。我希望我的程序能够识别“这句话中加粗的单词实际上是用某种任意颜色书写的”这些词是有颜色的。
然后在识别颜色之后,我希望能够根据颜色编辑识别的文本。例如,如果上面的粗体文本是红色的,我想在文本周围添加“Red>”标签,同时保持句子的其余部分未着色。
我最初使用 ZipInputStream 和 ZipEntry 来获取“word/document.xml”,并且我计划从那里提取文本和颜色,但我觉得这会在一段时间后变得太混乱。我也尝试过使用 Apache poi,但我认为它不能识别颜色。不过,Docx4j 看起来很有希望。有什么想法、建议或示例代码可以帮助我入门吗?