algorithm - 如何开发程序以最大程度地减少人工抄写手写调查的错误

Question

我需要开发定制软件来做调查。问题可能是多项选择，或者在极少数情况下是自由文本。

我被要求设计一个子系统来检查多项选择部分的手动数据输入是否有任何错误。我们正在努力加快用户数据输入过程，并尽量减少数字表格与原始问卷之间的人工输入差异。调查中充满了人工面试官的手写标记和文本，因此可能会发现难以阅读的标记，或者用户可能会在某些问题中意外选择不同的值，我们希望避免这种情况。

该软件必须包括一些自动控制来检测可能的打字差异。多项选择题的每个答案都具有相同的被选中概率。

这个问题有两个部分：

图形用户界面。

我想到的最简单的事情是实现最有用的问题显示设计：使用大而易读的字体和大方的空间选择。还有别的吗？为了更快的输入，我想使用下拉列表（喜欢键盘而不是鼠标）。鉴于问题按部分分组，我想显示为该部分问题选择的答案，但这可能会减慢进程。还有其他想法吗？

错误检查子系统。

我还能做些什么来尽量减少或检查多项选择题中的人为拼写错误？这是一个可以解决的问题吗？是否有一些统计方法可以检查用户输入的值是否与手工填写的表格相同？例如，假设调查有 5 个问题，每个问题有 4 个选项。假设我有 n 个由面试官填写的调查表，它们已准备好输入到软件中，那么如何最大限度地减少可以手动转录 n 个调查的意外差异，而无需仔细检查所有内容n 次调查的 5 个问题？

我的第一个建议是，在所有手工填写的表格处理结束时，软件可以随机选择一些表格，在少数情况下对回复进行双重检查，但我可以根据什么标准进行选择？这种验证是否足以以一种重要的方式涵盖所有内容？

实际调查是国家级的，总共有56页，200多个问题，所以会是很多人手写的页面，目的是减少出错的可能性，优化数据输入的速度过程。考虑到与采访者一起携带笔记本电脑或手持设备的复杂性，调查必须首先填写纸质。

score 13 · Accepted Answer

称我为老派，但我仍然认为最实用的方法是使用复式输入。两个数据录入职员输入他们的调查，然后交换堆栈并输入另一个职员的调查。每当您的系统检测到两者之间的差异时，它就会抛出一个标志 - 然后两个职员齐心协力并决定正确的答案（或者可能由更高级的研究人员进行审查，等等）。结合这里的一些其他建议（我非常喜欢 mdma 对 GUI 的建议），这将有助于实现低错误系统。

是的，这会使您的数据输入时间加倍（也许）——但这非常简单，并且会大大减少您的错误。OMR 的想法很棒，但在我看来，这个项目（一项 52 页的全国性调查）并不是一个黑客第一次尝试实施该项目的最佳案例。你需要什么软件？有什么硬件可以做到这一点？在识别愚蠢的东西时仍然需要大量的人工工作，其中面试官会标记所有四个可能的答案，然后在旁边写下一个便条 - 您可能希望随机抽样调查以了解机器是什么-读取错误率是。即使这样，您仍然只是对错误率的估计，而不是更正的数据。

这次尝试一种更简单的方法来为您的雇主提供高质量的结果 - 然后将这些结果用作预先验证的数据集，以便下次使用 OMR 进行试验。

score 6 · Accepted Answer

OCR/OMR 可能是最好的选择，因为您排除了不可预测的人为错误并用相当可预测的机器错误代替它。甚至可以过滤掉 OCR 可能难以处理的表格，并对其进行修改以提高扫描精度。

但是，直接解决最初的问题：

错误检查

有相关的问题，因此基本上相同的事情被多次询问，或者以否定的方式再次询问。如果相关问题的答案也不相关，那么这可能表明输入错误。
偏离规范：如果典型响应中存在模式，那么与这些典型响应的偏差可能被视为潜在的输入错误。例如，如果问题 2 和 3 回答 A，那么问题 for 可能是 C 或 D。这是上述相关性的概括。可以根据已经输入的数据动态计算相关性。

图形用户界面

让 GUI 模仿纸质表格，以便录入员在纸上看到的内容会反映在屏幕上。这样就不太可能在 GUI 中将纸质问题的答案输入到错误的问题中。
为数据输入员提供视觉帮助，例如使用滑块在纸上保持当前问题的位置。
用于输入数据的自定义输入设备可能比键盘导航和列表框更易于使用。例如，所有选项都拼写为 ABC D 的触摸显示屏。店员只需点击一个选项，它就会被选中并显示下一个问题——在短暂的停顿之后。如果职员出错，他们可以使用每个问题旁边的上一个/下一个按钮。
提供输入数据的音频反馈，因此当职员输入“A”时，他们会听到“A”。

编辑：如果您考虑执行数据的双重输入或实施改进的 GUI，则可能值得进行试点计划来评估各种方法的有效性。双重输入可能很昂贵（使数据输入任务的成本增加一倍） - 这可能会或可能不会通过提高准确性来证明是合理的。试点计划将使您能够快速且相对便宜地评估双重入境的有效性。它还将让您了解单个数据输入员在没有任何 UI 更改的情况下的错误级别，这有助于确定是否需要更改 UI 或其他减少错误的策略，以及实施这些策略的成本是合理的。

相关链接

score 5 · Accepted Answer

我的第一个建议是，在所有手工填写的表格处理结束时，软件可以随机选择一些表格，在少数情况下对回复进行双重检查

我认为这实际上不会产生有意义的结果。据推测，这些错误是无意的和随机的。随机检查会发现系统性错误，但如果您仔细检查 10% 的表格，您只会发现 10% 的随机错误（如果您检查 20% 的表格等，则会发现 20% 的错误）。

纸质调查是什么样的？如果可能的话，我猜想扫描手写测试并将 OCR 检测到的答案与数据输入操作员给出的答案进行比较的 OCR 系统将是一个更好的解决方案。您最终可能仍会手动仔细检查相当数量的调查，但您会确信您仔细检查的调查比随机挑选的调查更有可能包含错误。

如果您还控制纸质调查的外观，那就更好了：您可以专门设计它们，以便使 OCR 尽可能准确。

score 4 · Accepted Answer

请原谅我完全回避了这个问题，但昨天我去了 eBay，花了 99 美元购买了一台 7 英寸的 Android o/s 平板电脑。不是世界上的贴纸处理器，也没有大量的 RAM，但肯定足以填写该领域的用户调查。

我不敢相信你的组织付不起每位面试官 99 美元来解决这个问题。

至少值得向你的老板建议，不是吗？

score 4 · Accepted Answer

我会支持 Matt Parker 的建议，即使用复式输入来减少错误。我什至见过三重输入用于对错误非常敏感的数据输入任务。

复式录入的好处是，它使您能够通过做出一些假设（主要是录入项目和职员之间的错误率是一致的）并使用遇到录入冲突的比率来对整体错误率做出大致估计.

更复杂的复式录入系统还可以测量部分数据录入任务和个别文员的错误率，以便您可以进行改进以降低错误率。

score 3 · Accepted Answer

听起来需要一种组合方法，实际表格应该适合自动化处理。您可以扫描文档并只处理电子版本，如果可以自动处理多项选择输入，您可能会通过让用户远离循环来获得更好的错误率。根据 OCR 包，我猜你会得到一个值，告诉你系统对它所做的选择有多确定，这取决于你希望有人验证表单的值。注意我说的是在多项选择的标记上使用 ocr 而不是自由格式的条目，这本身可能是一个问题。

同时，您可能希望进行随机检查以找出 ocr 系统的错误率。然后，该值可用于确定多项选择题总和的置信度值。

我认为如果你只使用人工输入，类似的方法会很有帮助，你可能不会摆脱所有的错误，因为人们会犯错误并且他们会犯错误来纠正错误，但是如果样本量足够大，你可能会能够确定人工输入中的错误比率。然后，该数字可用于确定调查结果。

至于其他 UI 想法，您可以使用扫描的表单并以 UI 复选框接近书面复选框的方式覆盖 UI。如果您有几条已知的角度线，那么拉直和缩放表格应该不会太难。如果 UI 输入元素接近铅笔标记，那么您将获得更高的正确分类率。

您也可以使用统计分析来选择看起来不合时宜的表格，但是您可能会通过非统一选择来扭曲结果，这可能比统一随机错误更糟糕。根据纸质调查的设计，在 UI 中复制它可能会有所帮助，如果两者看起来相似，每个人都会更容易发现错误，如果你不坚持这一点，可能会参考调查中的一些参考设计（这样可能会有所帮助。

这似乎是一个相当大的操作，我相信员工中有一些统计学家，与他们讨论他们需要什么以及您可以做些什么来帮助他们，不应该做更多的歪曲结果。

score 3 · Accepted Answer

在您针对此问题实施了最佳的软件方法组合后，您还可以考虑通过Amazon 的机械土耳其人程序运行输出，并对原件的转录进行人工交叉检查。沿着这些思路的其他项目是reCaptcha（尽管据我所知，它仅用于印刷文本 OCR），我刚刚遇到了Beextra，它似乎正在做一些事情，比如对史密森尼媒体进行编目。

score 2 · Accepted Answer

关于多选答案转录错误的检测，我的建议是使用多个数据输入人员和统计分析。

统计学家可以比较结果，看看是否有任何问题突出显示一个数据输入用户输入的答案与其他用户输入的答案有明显不同的答案分布。如果是这样，那么可以将这些问题标记为从表格中重新输入。

假设表格被随机分配给数据输入人员，对于每个数据输入用户足够多的表格，输入的结果应该具有相当相似的答案分布。

score 2 · Accepted Answer

人工双重检查可能是达到低错误数的最流行方法。. 如果您想加快速度，一个人只能计算给定答案的总数并将此数字写在调查的底部（类似于“控制总和”）。向您的应用程序输入数据的人也应该将该数字填写在一个特殊的字段中，然后系统可以计算给定答案的数量并与预期值进行比较。这可以解决数量正确但数据不正确的问题。

您还可以使用数据挖掘中的一些方法来检测插入数据中的错误。示例：如果您询问年龄和工资范围，您可以创建规则：如果年龄 < X，则该人的收入很可能不超过 Y，因此发出警报并要求修改。这称为关联规则

图形用户界面：应该是 1:1 的纸张形式的表示。一些键盘快捷键可能有助于加快工作速度。

score 1 · Accepted Answer

如前所述，键入两次。是的，这是“双倍工作”，但这导致了第 2 点。

使调查易于键入。

对于键控，它们应该易于阅读。关于他们注意力的部分很好地突出显示，因此它从表格的噪音中脱颖而出。

你的“GUI”不应该是。GUI 的主要好处是“可发现性”，这些人不应该“发现”任何东西。一旦他们开始输入内容，键盘导航应该是“唯一”的方式。一只或两只手在键盘上，一只手用于更改调查页面 == 没有手用于鼠标。注意屏幕（对于鼠标或其他任何东西）是对键控调查的注意力。

键控器应该“低头”，根本不必看屏幕。如果可行，您可以使用音频提示来告诉键员他们在哪里切换了页面，以帮助确保他们正在键入的内容和计算机正在键入的内容基本相同。如果无法提供音频提示，则只需在他们所在的调查页面中输入人员键即可。计算机已经“知道”它在第“2”页，因此当键盘输入页码时，它可以验证它们在同一个位置。

务必使用声音提示键入错误。不要让他们输入垃圾，点击“保存”然后纠正错误。如果您立即知道数据错误，请立即停止并让他们立即修复。没有什么比 5 或 6 个“叮叮叮”更能引起他们注意的了，因为他们在意识到计算机阻止它们之前已经键入了 3 个字段。审核长问卷的错误是浪费时间。

不要“滚动”您的数据屏幕。来回翻页。滚动很烂。当您滚动时，屏幕上的字段会移动。如果你不这样做，他们总是在同一个地方，所以当入口的人确实需要看屏幕时，他们总是可以看同一个地方。

正因为如此，任何长度的下拉列表——太糟糕了。无论如何，他们不应该使用下拉菜单，因为无论如何他们都不应该看屏幕。表格应该准确地告诉他们他们需要输入什么。

与数据输入保持一致。尽可能使用 10 键。如果您有超过 10 个选项，并且 0-9 对整个问卷调查不实用，那么您应该使用 00-99。不要将 AZ 用于选项，因为人们不会那样想键。他们记住键盘上的字母不如记住键盘上的单词模式。01-26 在一周中的任何一天都比 AZ 快得多。

此外，SHIFT 键不是您的朋友。但是当他们处于“打字英语”模式时会很好。

最后，组织调查，使所有“打字”、“填空”的内容都集中在一个部分（最好放在最后）。这让他们 10 把其余的钥匙放在火焰中，进入一个区域，而不必来回移动他们的手。许多人在输入“英语”时会“顶键”数字（即使用顶行），而在不输入时会输入 10 个键数字。

score 1 · Accepted Answer

对于多项选择题，自动扫描似乎相当可靠。如果您可以选择在数据输入开始之前扫描所有文档，则将扫描结果合并到 UI 中，并使用计算机进行猜测。

对于多项选择题，将数据输入表放在一侧，将原始扫描件放在另一侧。如果计算机猜测高于某个阈值，请在数据输入区域填写该选项。如果计算机猜测低于某个阈值（多个答案或未找到答案），则不要标记初始答案并将该问题突出显示为需要注意。即使没有猜测，在数据输入旁边的屏幕上显示扫描的纸张似乎也很有帮助。

对于手写的答案，除了在数据输入区域旁边扫描输入之外，我没有真正的建议。即使图像不像原始文档那样清晰，也有助于确保为每个问题输入正确的文本。一个相当常见的输入错误是减一，即为错误的问题输入正确答案。在屏幕上显示图像可以减少一点，并使其他人更容易验证。

这假设所有表单的布局都是相同的，因此您可以编写一些代码来显示某个页面的某个部分，并期望它是表单的正确部分。

score 0 · Accepted Answer

设计一个闭环系统。

您必须不时注入双盲“参考表格”，让您的常规人员输入以自动评估他们的表现，并根据成功率提供反馈。

这将控制人为因素的动机并消除输入错误的主要来源。

algorithm - 如何开发程序以最大程度地减少人工抄写手写调查的错误

12 回答 12

Related

Reference