我需要从电子邮件附件中的几种文档类型(主要是 .doc .docx .pdf 和 .txt )中提取文本。该应用程序正在 Google App Engine 上运行。Apache Tika 完全符合我的需要,但是当它尝试在 GAE 上创建临时文件时,我遇到了 SecurityException。我知道 GAE 不支持这一点。
除了临时文件,有没有办法强制 Tika 使用 memcache 或其他一些存储?是否有任何其他文档解析器可以在没有临时文件的情况下处理这个问题?
我需要从电子邮件附件中的几种文档类型(主要是 .doc .docx .pdf 和 .txt )中提取文本。该应用程序正在 Google App Engine 上运行。Apache Tika 完全符合我的需要,但是当它尝试在 GAE 上创建临时文件时,我遇到了 SecurityException。我知道 GAE 不支持这一点。
除了临时文件,有没有办法强制 Tika 使用 memcache 或其他一些存储?是否有任何其他文档解析器可以在没有临时文件的情况下处理这个问题?