这个问题可能很模糊,但我会尽量用最好的语言来表达。
所以我想出了一个粗略的算法来计算一个句子(评论片段的一部分)是正面的、负面的还是中性的(我们把这个句子称为 EQ)。所以对于 5 个句子,我有一些基于 [-100, 100] 的句子评分。评论必须在 [0, 5] 的基础上进行评分
(0, 39.88) (1, 73.07) (2, 69.65) (3, 51.43) (4, 76.74)
我正在努力的选择是我现在应该选择哪种方法来计算评论片段的总体评分。
我研究了一下,尝试了两种选择
1) 50% 百分位数:对于上述数据点,我将其设为 70。因此将其映射到 0-5 比例结果为 4.2。结果很好,但可悲的是,百分位数没有捕捉到 EQ 在片段中从一个句子到另一个句子的变化(因为它适用于排序的数据,所以变化丢失了)。2) 拉格朗日多项式:这里接近 69。但这种方法的问题是我经常在 X 范围的中间计算它(在这种情况下为 2),因此这也不能捕捉到 EQ 的变化句子的(这里的端点无关紧要,它主要会给出中间值)。
有什么想法,我应该选择什么方法来捕捉片段中的 EQ 变化并给出一个合适的值来获得整体情绪。?
可能像excel这样的东西可以绘制趋势线,可以使用的概率??