我有一个应用程序允许用户上传文件,主要是 PDF 和 Word 文档。这些文件存储在数据库的 varbinary 字段中。不管用户如何访问应用程序,通过 Web 或 Windows 窗体应用程序或任何其他表示层,我都需要让这些文件可用。
有没有办法搜索这些字段的原始文本内容?例如,如果我上传简历,我希望用户能够搜索 C# 并能够在 varbinary 字段的内容中查找指定的文本。
此外,如果有更好的策略来处理这个问题,我愿意接受。
我有一个应用程序允许用户上传文件,主要是 PDF 和 Word 文档。这些文件存储在数据库的 varbinary 字段中。不管用户如何访问应用程序,通过 Web 或 Windows 窗体应用程序或任何其他表示层,我都需要让这些文件可用。
有没有办法搜索这些字段的原始文本内容?例如,如果我上传简历,我希望用户能够搜索 C# 并能够在 varbinary 字段的内容中查找指定的文本。
此外,如果有更好的策略来处理这个问题,我愿意接受。
我会说使用 SQL Server 是错误的工作工具(搜索方式),因为它不能原生解析存储在二进制文档中的文本。
我建议查看类似Lucene.NET(Lucene 搜索引擎的 .NET 端口……最初用 Java 编写),它可以让您在上传文档后轻松搜索它们。
您应该能够构建一个解决方案,允许您将文档存储保留在 SQL Server 中,但使用 Lucene.NET 来索引和搜索您存储在那里的文档。
您需要一层代码来提取类型并了解格式。对于 SQL,它只是原始数据