我想定义 *.txt files: 的 MIME 类型text/txt
,以便 Tika 可以应用比用于text/plain
文件的解析器更具体的解析器。
glob*.txt
包含在类型的定义text/plain
中tika-mimetypes.xml
。此外,在我看来,您无法在 中重新定义 MIME 类型custom-mimetypes.xml
,只能添加新的 glob 或魔术模式。此外,如果我将text/txt
类型定义为只有 globtika-mimetypes.xml
的子类型,Tika 仍将 txt 文件检测为.text/plain
*.txt
text/plain
text/plain
只为txt文件定义一个子类型是不是很荒谬?如果不是,是否可以仅使用 来定义它custom-mimetypes.xml
?如果不是,那么扩展 tika 的最简单方法是什么,以便它可以解析不同于(比如说)STEP 3D CAD .stp 文件或 .cfg 文件的 txt 文件?
详细用例:我有大量由(递归)档案组成的数据源。一些纯文本文件很大,我不希望 Tika 解析它们。但是,我想保留所有的 txt 文件。
编辑:指定我也不想保留 .cfg 文件(*.cfg
是一个 glob text/plain
)