如果我创建一个函数来获取网页。它会在每次执行时在不同的 IP 上执行它,以便我的抓取请求不会被阻止吗?
问问题
8817 次
4 回答
0
是的,lambda 默认使用随机 IP 执行。您可以使用事件桥之类的东西来触发它,这样您就可以安排每小时或类似的时间执行脚本。其他人可能会推荐使用 API Gateway,但是,公开可供任何人触发的 API 端点是非常不安全的。因此,您必须编写额外的逻辑来通过硬编码标头或说 oauth 来保护它。
于 2021-12-16T22:16:11.483 回答
0
在左侧的源中,您将拥有一个带有JAUNT的 EC2 实例,该实例随后将 URLS 或 HTML 页面提供给 Kinesis Stream。Lambda 将解析您的 HTML,并通过 Firehose 将所有内容放入 S3 或 Redshift。JAUNT 可以通过具有旋转 IP 的标准 WebProxy 服务运行。
于 2017-07-27T11:15:34.033 回答
0
AWS Lambda 没有这里提到的固定 IP 源, 但是我想这会在它冷却下来时发生,而不是在同一次调用期间。
于 2022-01-11T20:29:12.310 回答
-2
将文件放置在 S3 中或将数据添加到 Kinesis 或 DynamoDB 时会触发 Lambda。这通常与网络抓取工具的需求相反,尽管像 S3 这样的东西肯定可以作为队列/作业运行器执行。
抓取不同的IP?当然 lambda 部署在许多机器上,尽管这实际上对您没有帮助,因为您无法控制机器或它们的 IP。
于 2015-03-03T07:44:58.980 回答