1

我想从网站用户那里收集某种地理信息 - 对于给定的数据集,他们将标记复选框,指示该地点是否有给定财产。是否有任何工具/框架可以根据整个收集的数据集(以及可能的其他信息)检测欺诈或垃圾邮件提交?我想获得过滤后的更可靠的数据。

4

1 回答 1

2

不确定这是否正是您所要求的,但这里有一些来自我使用 Amazon Turk 的经验的提示:

有几篇学术论文涉及这些问题。是一个很好的。此外,基于以下一般性建议,我创建了一个自定义过程来处理我的数据:

一种。包括一个未解决的问题,并过滤掉没有回答的案例。自动回答这样的问题更难,而且对欺诈者来说也可能更耗时,因此吸引力更小。

湾。如果可能,不要使用二进制刻度(即复选框),而是使用某个等级(例如 1-4 或 1-6)。这将为您提供更多可使用的数据。

C。如果可能的话,过滤掉填写表格所花费的时间太短的情况。(如果您包含该未解决的问题,则特别有用)

d。如果每个用户有多个输入,请检查重复的答案,以及始终给出远离平均答案的用户。如果每个用户只提交一个“表单”,请考虑在其中放置多个元素/问题,这样每个用户都会收到多个提交。

e. 如果每个用户或用户 ID 只有一次提交,则您的选择会受到更多限制。如果您有足够的数据,我可以建议过滤掉异常值(例如,数据点与平均值相差 3 个标准差)。

F。在所有过滤之后,检查数据中的一致性或不一致性(例如,检查数据点中有多少比例落在平均值的 x 标准差内)。如果有一致意见,则使用平均值;如果有分歧,请收集更多数据。

希望能帮助到你,

于 2011-08-29T16:55:50.940 回答