1

我正在创建一个提要聚合器。我会爬博客,有时每隔一小时或每两小时检查一次,看看他们是否有新帖子。我为此使用 Simplepie。

我想知道是否应该更改 Simplepie 拥有的自定义用户代理(SIMPLEPIE_USERAGENT)。另外,如果我应该改变它,用户代理的最佳实践是什么。谢谢!

4

3 回答 3

3

是的,您应该这样做,否则他们可能会开始向 SimplePie 维护者(即我 :) 抱怨它。使用自定义用户代理可以让他们知道如果出现问题该联系谁。

理想的格式是“Your Program Name/1.0”,其中 1.0 是版本。您还可以包含 URL(如果这样做,请在它们前面加上 +)和联系地址,使其成为“您的程序名称/1.0 (+http://example.com/)”

于 2012-08-30T01:13:34.680 回答
1

你应该改变它吗?嗯,这取决于你在做什么。有些网站会根据 UA 阻止您。那是他们的权利。

如果您尝试抓取数据并且不关心遵守规则,那么您可以将其更改为您想要的任何内容。

最佳做法是表明自己的身份并遵守 robots.txt

于 2012-08-29T20:51:33.710 回答
0

我总是将我的应用程序的名称作为用户代理,这样如果我的脚本导致他们的服务器出现问题,服务器管理员可以联系我。(这是任何人关心的唯一原因)

于 2012-08-30T00:24:24.337 回答