目前我们正在将文件(PDF、DOC)作为 BLOB 字段保存到数据库中。我希望能够检索文件的原始文本,以便能够对其进行操作以实现高亮显示和其他功能。
有谁知道通过 SQL 或 .net 代码解析文件并在保存时保存原始文本的简单方法。我发现 Adobe 有一个 filtdump 实用程序,可以将 PDF 转换为文本。Filtdump 似乎是一个命令行工具,我看不到使用文件流的方法。Office 文档和其他文件类型的提取器是什么?
-或者-
有没有办法从 SQL 全文索引中提取原始文本,而不使用 3rd 方过滤器?
请注意,我正在尝试构建一个 .net 和 MSSql 解决方案,而无需使用第三方工具,例如 Lucene