我有以下用于构建数据湖的用例(例如在 Azure 中):
我的组织与破产的公司打交道。一旦公司破产,它需要将所有数据交给我们,包括结构化数据(例如 CSV)以及半结构化和非结构化数据(例如 PDF、Word 文档、图像、JSON、.txt 文件等)。 )。拥有数据湖在这里会有所帮助,因为数据量可能很大且不可预测,而 Azure 数据湖似乎是一种成本相对较低且可扩展的存储解决方案。
但是,除了存储所有这些数据之外,我们还需要为业务用户提供一个工具,使他们能够搜索所有这些数据。我可以想象两种搜索类型:
- 搜索特定文件(使用文件名或部分文件名作为搜索条件)
- 搜索所有文本文件(word 文档、.txt 和 PDF)并识别符合搜索条件的文件(例如,正在搜索的特定短语)
是否有任何开箱即用的工具可以使用 Azure Data Lake 作为数据源,使用户能够执行此类搜索?