好的 - 我有一个难题。到目前为止,我的脚本将页面标题转换为类别。这是基于关键字的,当有匹配时,会添加一定的分数,即有些单词的值是 10,有些只有 1。这会累积到每个类别的总分中。
[{15: [32, 'massages']}, {45: [12, 'hair-salon']}, {23,:[3, 'automotive service']}]
索引是类别 id,第一个值是分数,第二个值是类别。
在某些情况下,这跨越了 10 多个类别匹配。
如何将其过滤到仅前 60-75%
即显然按摩和美发沙龙是最多的,因为它们远远高于汽车服务。但是我们使用的这种智能如何被编程呢?
我在想 stddev 可以提供帮助吗?
编辑
我正在尝试过滤掉低分项目,例如
data = [{15: [32, 'massages']}, {45: [1, 'hair-salon']}, {23:[1, 'automotive service']}]]
按摩是本例中唯一的高分项目
data = [{15: [4, 'massages']}, {45: [2, 'hair-salon']}, {23:[1, 'automotive service']}]]
斯蒂尔按摩
data = [{15: [10, 'massages']}, {45: [50, 'hair-salon']}, {23:[5, 'automotive service']}]]
现在美发沙龙(因为它远高于其他)
所以我不需要将第一个(N)个对象,更何况,第一个比其他数字高 x 的对象作为标准偏差的百分比或形式。
所以 50 远高于 10 和 5
10 远高于 3 或 2
但是 9、8 和 6 大体相同