1

我正在寻找一些我不知道该怎么做的东西。我对爬行、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些。

  1. 我有一个大约 100 个网站的列表,我想经常监控这些网站。至少每 3 或 4 天一次。在这些网站中,我会寻找一些符合逻辑的匹配项,例如:

文本包含“ABC”且不包含“BCZ”或文本包含“XYZ”且不包含“ATM”等等

  1. 该工具必须查看以下网站:

    • 网页
    • 文档文件
    • DOCX 文件
    • XLS 文件
    • XLSX 文件
    • TXT 文件
    • RTF 文件
    • PDF 文件
    • RAR 和 ZIP 文件
  2. 匹配必须是增量的(我只想要最近 X 天的匹配)

  3. 最重要的是,在这 100 个网站中,大约有 40 个需要用户身份验证(我已经这样做了)。

  4. 每当有比赛时,我想下载:

    • 文件
    • 关联
    • 约会时间
    • 比赛报告

我一直在玩诸如 import.io 之类的工具,但我还没有弄清楚如何正确地做到这一点!

有谁知道我在寻找哪种技术?谁(什么样的专家,程序员)可以为我构建这个?对于了解数据爬取的程序员来说构建它是否太难了?

对不起,很长的帖子

4

1 回答 1

4

对于不需要认证的60个网站:

您可以使用backstitch之类的工具来标记要监控的网站,并获取包含所需关键字内容的页面的交互式缩略图提要。Backstitch 支持使用布尔运算符(您描述的 AND / OR 功能),并且有一个 API 可以让您以您需要的格式导出结果。

他们的支持团队(和 CEO)过去在描述他们的 API 如何用于自定义搜索案例方面非常有帮助。祝你好运!

于 2015-08-22T19:09:29.790 回答