0

我正在开发一个 Django 应用程序,它基本上用作网站的数据输入工具。该用例有一个受信任的用户或付费技术人员浏览 Web。当他们浏览时,他们将数据输入到与您在许多代理网站上看到的类似的重叠栏中,但包含一个允许用户编写有关网站的元数据(在本例中为 ML 算法的训练分类数据)并将其提交给我的应用程序。

请参阅http://hidemyass.com/proxy/以获取代理网站的示例,该示例将叠加层插入浏览的网站。

我听到了关于如何解决这个问题的相互矛盾的建议。

将网站作为代理服务

通过 django 应用程序使用http://httpproxy.yvandermeer.net/之类的管道传输所有 url 请求,并重写响应以包含标头。

优点

  • 我可以使用像 NLTK 这样的性感科学库来处理响应
  • 无 AJAX 故障转移。用户无需提交计算数据即可提交人工数据(尽管比较麻烦)。

缺点

  • 流量大大增加。现在我的 webapp 必须检索所有网站并将它们上传给用户。
  • 某些网站可能会阻止代理请求。我的意图是将其部署在 Heroku 上,但他们可能会不赞成生成如此多请求的应用程序。

用户在 iFrame 中浏览

叠加层通过 iFrame 与内容分开,我使用 javascript 通知当前正在浏览的页面上的叠加层

优点

  • 分布式计算。用户机器用于发出请求并进行任何必要的计算。服务器不再是瓶颈。
  • 更紧密的 Ajax 集成。我可以只发布一个代表我的整个模型的 JSON 对象。

缺点

  • iframe 并不是真正为全面浏览而设计的。一些网站强迫自己退出 iframe,我担心这不是一种可靠的浏览方法。
  • 我不会使用所有那些性感的 python 库。我的语言处理必须在 javascript 中完成。

问题

我以前从来没有做过这样的事情。我对所涉及的所有工具都很陌生,并且在两种截然不同的方法之间进行选择时遇到了严重的麻烦。

你会建议哪种方法?为什么?有没有我遗漏的注意事项?

4

1 回答 1

0

OKFN 的注释器为您尝试完成的工作提供了良好的基础http://okfn.github.com/annotator/

于 2012-11-26T12:17:09.690 回答