0

我正在使用 Azure 搜索,它对导入非结构化数据(pdf、doc、文本、图像文件等)的数据使用默认索引

我没有在默认可用字段上制作任何评分资料。

门户中的几乎所有设置都是默认设置。如果我通过搜索资源管理器搜索任何文本,那么我会得到搜索分数非常低的 JSON 结果。

我阅读了有关使用评分配置文件提高分数的信息。但是,我想查找的术语可以在任何地方的任何文档中。那么我该如何决定在哪个领域我可以更重?

如何在这些输入文件上生成更多自定义字段?我需要编写文档解析器吗?

我在我的机器人中使用 SDK 4.0 和 c#。

请建议。

4

1 回答 1

2

要使用评分配置文件,您尝试提升的字段需要成为索引定义的一部分,否则评分机制将不知道它们。

您提到使用非结构化数据作为源,我认为这意味着您的数据没有任何稳定或可预测的结构。如果是这种情况,那么您可能无法更新索引定义以完全匹配每个文档的结构,因为不同的文档可能具有不同且不可预测的结构。如果您知道要提升哪些字段,并且知道如何从文档中检索这些字段,则可以仅使用您关心的字段更新索引定义,然后使用“合并”文档 API 填充该字段对于每个文档。

https://docs.microsoft.com/en-us/rest/api/searchservice/addupdate-or-delete-documents

这将要求您从索引中检索所有文档,解析数据以提取您想要提升的字段,然后使用合并 API 使用您提取的数据更新索引数据。一旦你有了这个,你将能够使用该字段作为评分配置文件的一部分。

于 2018-12-10T22:32:50.203 回答