web-crawler - 数据爬虫或其他

Question

我正在寻找一些我不知道该怎么做的东西。我对爬行、报废等方面没有深入的了解，但我相信我正在寻找的技术就是这些。

文本包含“ABC”且不包含“BCZ”或文本包含“XYZ”且不包含“ATM”等等

我一直在玩诸如 import.io 之类的工具，但我还没有弄清楚如何正确地做到这一点！

有谁知道我在寻找哪种技术？谁（什么样的专家，程序员）可以为我构建这个？对于了解数据爬取的程序员来说构建它是否太难了？

对不起，很长的帖子

score 4 · Accepted Answer

对于不需要认证的60个网站：

您可以使用backstitch之类的工具来标记要监控的网站，并获取包含所需关键字内容的页面的交互式缩略图提要。Backstitch 支持使用布尔运算符（您描述的 AND / OR 功能），并且有一个 API 可以让您以您需要的格式导出结果。

他们的支持团队（和 CEO）过去在描述他们的 API 如何用于自定义搜索案例方面非常有帮助。祝你好运！

1 回答 1