0

我想定义 *.txt files: 的 MIME 类型text/txt,以便 Tika 可以应用比用于text/plain文件的解析器更具体的解析器。

glob*.txt包含在类型的定义text/plaintika-mimetypes.xml。此外,在我看来,您无法在 中重新定义 MIME 类型custom-mimetypes.xml,只能添加新的 glob 或魔术模式。此外,如果我将text/txt类型定义为只有 globtika-mimetypes.xml的子类型,Tika 仍将 txt 文件检测为.text/plain*.txttext/plain

text/plain只为txt文件定义一个子类型是不是很荒谬?如果不是,是否可以仅使用 来定义它custom-mimetypes.xml?如果不是,那么扩展 tika 的最简单方法是什么,以便它可以解析不同于(比如说)STEP 3D CAD .stp 文件或 .cfg 文件的 txt 文件?

详细用例:我有大量由(递归)档案组成的数据源。一些纯文本文件很大,我不希望 Tika 解析它们。但是,我想保留所有的 txt 文件。

编辑:指定我也不想保留 .cfg 文件(*.cfg是一个 glob text/plain

4

0 回答 0