嘿,所以我在数据分析中遇到了以下障碍。
我有两个频率列表包含在两个单独的文本文件中,如下所示:
list2.txt
325 de
309 het
308 is
289 een
258 ik
208 rt
207 op
192 :
189 van
186 met
178 echt
167 en
160 in
150 dat
list2.txt
528 het
471 ik
466 een
445 de
426 is
350 dat
308 niet
273 van
239 en
227 wat
215 die
199 je
193 met
188 op
180 in
166 te
155 voor
选项 1: 我正在寻找一种方法,最好是 python,对以下数据执行以下等式。这是我试图实现的公式:
Pm(w) = relative frequency of word/token 'w' in list1
Pv(w) = relative frequency of word/token 'w' in list2
variance = sqrt (Pm(w) / Nm + Pv(w) / Nv)
t = ( Pm(w) - Pv(w)) / variance
有人可以帮我写一个程序/函数来为我做这件事。即,它将两个文本文件都作为输入,并为每个单词/标记生成值。我很迷茫,这似乎要带我永远。
输出:具有 t 检验值和单词的新文档。
选项2: 我也在寻找一种为我产生比率的方法。
输入:(list1.txt 和 list2.txt)
输出:(list1-ratio.txt)
325 de 445 de 0.7:1
289 een 466 een 0.6:1
输出:(list2-ratio.txt)
445 de 325 de 1.3:1
466 een 289 een 1.6:1
有没有人可以帮助我解决这个问题,最好的情况是同时使用这两个选项,这样我就可以比较数据。这不是功课,我正在做情绪分析。
谢谢