如何检测文档中的图像,例如 doc、xls、ppt 或 pdf ?
我遇到了 Apache Tika,我正在尝试命令行选项。http://tika.apache.org/1.2/gettingstarted.html
我正在使用 Python2.7 ..
但不太确定它将如何检测图像。
我是 Django 的新手,感谢任何帮助。
谢谢
如何检测文档中的图像,例如 doc、xls、ppt 或 pdf ?
我遇到了 Apache Tika,我正在尝试命令行选项。http://tika.apache.org/1.2/gettingstarted.html
我正在使用 Python2.7 ..
但不太确定它将如何检测图像。
我是 Django 的新手,感谢任何帮助。
谢谢
这个线程很旧,我正在恢复它,因为现在有各种解决方案来解决这个问题。tika 的开发人员之一 Chris Mathamm 为 tika 进行了 python 集成,它使用 JCC 库的 c++ 绑定来访问 jvm 并运行 tika。你可以在这里找到。
还有一个使用门户转换的 Plone 的 Apache Tika 集成。 它使用 tika-jaxrs 服务器来解析文档。