我正在使用Microsoft Azure 的视频索引器 API来处理 MP4 视频。一些视频非常相似(相同的镜头,但可能有不同的画外音)。理想情况下,我想在我的输出中将视频组合在一起,这是一个 CSV 文件。
我正在使用 Python 连接视频索引器 JSON 输出并将其转换为 CSV。有没有一种方法可以使用 Python 来比较每个文件的 JSON 输出的相似程度?
下面是两个示例 JSON 响应。请注意,第二个缺少“足球”关键字,但其他所有内容都与第一个相同。
我想要一种方法来量化这两组关键字的相似程度。因此,如果它们完全相同,则相似度值为 1.0。如果它们完全不同,则相似度值为 0.0。
{
"accountId": "00000000000",
"id": "abc3454321",
"name": "Video A",
"description": "Test",
"userName": "Some name",
"created": "2018/2/2 18:00:00.000",
"privacyMode": "Private",
"state": "Processed",
"isOwned": true,
"isEditable": false,
"isBase": false,
"durationInSeconds": 120,
"summarizedInsights" : {
"keywords": [{
"id": 1,
"name": "4k"
}, {
"id": 2,
"name": "Television"
}, {
"id": 3,
"name": "Football"
}]
}
}
第二个视频的总结见解会略有不同:
{
"accountId": "00000000000",
"id": "abc3454321",
"name": "Video B",
"description": "Test",
"userName": "Some name",
"created": "2018/2/2 18:00:00.000",
"privacyMode": "Private",
"state": "Processed",
"isOwned": true,
"isEditable": false,
"isBase": false,
"durationInSeconds": 120,
"summarizedInsights" : {
"keywords": [{
"id": 1,
"name": "4k"
}, {
"id": 2,
"name": "Television"
}]
}
}