0

我想构建一个单一的累积 web 应用程序,我的组织的用户只能使用一个站点而不是十多个站点用于不同的目的。我的组织有不同的站点用于考勤、帐户、人力资源等等。我想抓取所有这些站点,读取他们的数据并使用 c# 将其保存在我的 sqlserver 中,然后用户可以直接从我的系统中使用/搜索该数据。

How would that work?
What tools/libraries can/should I use?
Are there good tutorials on that?
How do I best deal with binary data (e.g. images)?
Are there already good solutions for that?
4

1 回答 1

0

如果你的道路充满了问题,你要走的路。我永远不会尝试它。考虑这些挑战:

  • 您必须解析可能格式正确或格式不正确的 HTML
  • 数据可能穿插各种非数据(广告、导航、悬停文本、javascript、评论等)
  • 你不知道数据的年龄
  • 给定站点的 HTML 格式可能会从一天到另一天发生变化,并且可能会破坏您以前的抓取策略
  • 只有在满足授权步骤后才访问的页面上可能存在重要信息
  • 过去存在于一个 URL 的数据可能已被移动,现在存在于不同的 URL 或拆分为多个不同的 URL
  • 某些数据只有在输入某些搜索参数或某些用户登录后才能找到
  • 您网站的用户可能无权 (?) 查看您从其他网站提取的数据

我建议建立一个数据仓库并与这些系统的提供者合作,以便从他们的根数据库中获取数据馈送的访问权(但可能是:REST URL、直接 SQL、Web 服务、夜间数据转储)。使用 ETL 从这些系统背后的原始数据库中提取、转换和加载数据。

于 2013-06-10T04:38:25.563 回答