我正在寻找一些我不知道该怎么做的东西。我对爬行、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些。
- 我有一个大约 100 个网站的列表,我想经常监控这些网站。至少每 3 或 4 天一次。在这些网站中,我会寻找一些符合逻辑的匹配项,例如:
文本包含“ABC”且不包含“BCZ”或文本包含“XYZ”且不包含“ATM”等等
该工具必须查看以下网站:
- 网页
- 文档文件
- DOCX 文件
- XLS 文件
- XLSX 文件
- TXT 文件
- RTF 文件
- PDF 文件
- RAR 和 ZIP 文件
匹配必须是增量的(我只想要最近 X 天的匹配)
最重要的是,在这 100 个网站中,大约有 40 个需要用户身份验证(我已经这样做了)。
每当有比赛时,我想下载:
- 文件
- 关联
- 约会时间
- 比赛报告
我一直在玩诸如 import.io 之类的工具,但我还没有弄清楚如何正确地做到这一点!
有谁知道我在寻找哪种技术?谁(什么样的专家,程序员)可以为我构建这个?对于了解数据爬取的程序员来说构建它是否太难了?
对不起,很长的帖子