我正在尝试绘制类似于下图的累积直方图。它显示了从单词 0 到 92,633 表示的文本语料库(x 轴)中法语代词“vous”的出现次数(y 轴)。它是使用名为TXM的语料库分析应用程序创建的。然而,TXM 的情节并不适合我的出版商的具体要求。我想制作自己的图,将数据导出到 python。问题是 TXM 导出的数据有点令人费解,我想知道如何使用它来制作绘图:它是一个包含整数的单列 txt 文件。
它们中的每一个都表示“vous”在文本语料库中的位置。Word 2620 是一个“vous”,3376,另一个等等。我对 Matplotlib 的尝试之一:
from matplotlib import pyplot as plt
pos = [2620,3367,3756,4522,4546,9914,9972,9979,9987,10013,10047,10087,10114,13635,13645,13646,13758,13771,13783,13796,23410,23420,28179,28265,28274,28297,28344,34579,34590,34612,40280,40449,40570,40932,40938,40969,40983,41006,41040,41069,41096,41120,41214,41474,41478,42524,42533,42534,45569,45587,45598,56450,57574,57587]
plt.bar(pos, 1)
plt.show()
但这并不接近。我应该遵循哪些步骤来完成情节?
想要的情节: