我正在使用 sphinx xmlpipe 和 rake 任务在 ms 单词文件中搜索,以便为他获取格式化的 xml。当我遇到问题时。基本上我所做的是用 MIME::Types.type_for 检测文件类型,如果这个文件 doc 或 docx 用 catdoc 读取它或提取它的 word/document.xml,问题是当任务返回 xml 中的特定条目时,sphinx 无法索引,他以 xml 解析错误结束:
XML parse error: not well-formed (invalid token)
当我查看返回的任务时,我发现索引在看起来像二进制数据条目的行上中断。我可以从文本中过滤二进制数据,或者至少用它们检测文档,以便 sphinx 可以完成索引?