azure-cognitive-search - 如何提高天蓝色搜索非结构化 blob 数据的分数？

Question

我正在使用 Azure 搜索，它对导入非结构化数据（pdf、doc、文本、图像文件等）的数据使用默认索引

我没有在默认可用字段上制作任何评分资料。

门户中的几乎所有设置都是默认设置。如果我通过搜索资源管理器搜索任何文本，那么我会得到搜索分数非常低的 JSON 结果。

我阅读了有关使用评分配置文件提高分数的信息。但是，我想查找的术语可以在任何地方的任何文档中。那么我该如何决定在哪个领域我可以更重？

如何在这些输入文件上生成更多自定义字段？我需要编写文档解析器吗？

我在我的机器人中使用 SDK 4.0 和 c#。

请建议。

score 2 · Accepted Answer

要使用评分配置文件，您尝试提升的字段需要成为索引定义的一部分，否则评分机制将不知道它们。

您提到使用非结构化数据作为源，我认为这意味着您的数据没有任何稳定或可预测的结构。如果是这种情况，那么您可能无法更新索引定义以完全匹配每个文档的结构，因为不同的文档可能具有不同且不可预测的结构。如果您知道要提升哪些字段，并且知道如何从文档中检索这些字段，则可以仅使用您关心的字段更新索引定义，然后使用“合并”文档 API 填充该字段对于每个文档。

https://docs.microsoft.com/en-us/rest/api/searchservice/addupdate-or-delete-documents

这将要求您从索引中检索所有文档，解析数据以提取您想要提升的字段，然后使用合并 API 使用您提取的数据更新索引数据。一旦你有了这个，你将能够使用该字段作为评分配置文件的一部分。

azure-cognitive-search - 如何提高天蓝色搜索非结构化 blob 数据的分数？

1 回答 1

Related

Reference