0

我正在使用 massindexer 为我正在处理的项目索引我的域模型;我的域模型包括存储在数据库中的文件字节。我已经使用 TikaBridge 注释为我的域对象中的文件集合正确地注释了我的域模型。

我可以在我的数据库索引中访问的大多数文件(200 多种,各种格式)都很好,但有时文件由于某种原因无法解析。这似乎导致索引器停止处理它的整个当前批次的域对象。我在https://hibernate.atlassian.net/browse/HSEARCH-1354打开了一个关于它的问题

根据文档,您可以创建自定义错误处理程序来处理此类问题;http://docs.jboss.org/hibernate/search/4.3/reference/en-US/html_single/#d0e2582

我似乎无法告诉休眠搜索忽略解析错误并继续索引。

有人能给我指出正确的方向,让我知道如何创建一个忽略 Tika 文档解析错误的自定义 ErrorHandler 吗?

4

1 回答 1

1

我无法使自定义 ErrorHandler 解决方案工作,所以我最终将 org.hibernate.search.bridge.builtin.TikaBridge 复制并粘贴到我的代码库中,并对其进行修改以记录解析错误,但继续前进。

我最终使用以下注释将它们组合在一起。

@Field
@FieldBridge(impl=com.my.project.CustomTikaBridge.class)
private byte[] bytes;
于 2013-06-21T14:13:39.790 回答