2

我在另一个线程上发布了以下问题:

“有没有人知道一个可以从 php 中使用的好的解决方案,它可以有效地从文档中删除联系信息,如电话号码、电子邮件地址,甚至可能是联系地址?”

我很快就被告知了我的怀疑......我要求太多了:)

所以现在我正在寻找替代解决方案。我正在考虑使用亚马逊的 Mechanical Turk 来删除联系信息。

那么两个问题?

  1. 这是否适合机械土耳其人?
  2. 服务效果如何?
4

1 回答 1

2

查看http://www.microtask.com。(我不隶属于这家公司。)

你也许可以用你的正则表达式撒一张大网,然后让人工筛选出真实的地址、电话号码和电子邮件地址。“某某”是地址、电话号码还是电子邮件地址,对人类来说是一个相当简单的问题。

由于他们将表格切碎(或说他们这样做了——我没有使用过),因此您不必担心隐私问题,或者可以证明它们的合理性。如果 MicroTask 有数百个客户端,他们能够做的就是把所有的微任务扔到一个巨大的漏斗中,随机分配每个工人看到的那些。因此,他们几乎可以保证工作人员几乎无法关联他们处理的任何敏感信息。每个工人每天都会看到数千条独立的信息。在这种情况下,谁能看出第 1 天的任务 347 的电子邮件地址与第 3 天的任务 1133 对应?即使他们可以,这对他们来说也几乎不值得。他们可能会做更多的钱,只要按照他们的要求去做。

于 2010-11-10T16:18:31.893 回答