我维护一个用 Delphi/Sql Server 编写的客户端服务器 DMS。
我想让用户在存储在数据库中的所有文档中搜索一个字符串。(文件存储为 blob,它们存储为压缩文件以节省空间)。
我的想法是在“签入”上对它们进行索引,因此当我存储一个 nwe 文件时,我会提取其中的所有文本信息并将其放入一个新的数据库字段中。所以不知何故我的文件表将是:
ID_FILE integer
ZIPPED_FILE blob
TEXT_CONTENT text field (nvarchar in sql server)
我想支持至少最常见的类似文本的文件的“索引”,例如:pdf、txt、rtf、doc、docx、pdf,可能正在添加 xls 和 xlsx、ppt、pptx。
对于 MS Office 文件,我可以使用 ActiveX,因为我已经在我的应用程序中使用它,对于 txt 文件,我可以简单地读取文件,但对于 pdf 和 odt?
您能否建议最好的技术,甚至是第 3 方组件(也不是免费的),它可以“无所畏惧”地解析所有文件类型?
谢谢