我有一些广告发布者的数据集。发布商通过每次点击广告赚取收入。数据集由发布者列表和相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击它自己的广告以获得更多的钱。但其中一些发布商的总点击量非常小(低于 10),因此交易次数为 0。
我的问题是我应该如何处理这些零数据?他们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中消除它们?有什么统计方法可以做这样的事情吗?
顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。
我有一些广告发布者的数据集。发布商通过每次点击广告赚取收入。数据集由发布者列表和相应的点击次数和他们引起的交易次数组成。问题是出版商是否作弊并点击它自己的广告以获得更多的钱。但其中一些发布商的总点击量非常小(低于 10),因此交易次数为 0。
我的问题是我应该如何处理这些零数据?他们实际上破坏了我的数据高斯分布。我该怎么办?只是从我的数据集中消除它们?有什么统计方法可以做这样的事情吗?
顺便说一句,我对数据分析很陌生,如果答案很明显,请原谅,但我在网上找不到答案。