我正在创建一个提要聚合器。我会爬博客,有时每隔一小时或每两小时检查一次,看看他们是否有新帖子。我为此使用 Simplepie。
我想知道是否应该更改 Simplepie 拥有的自定义用户代理(SIMPLEPIE_USERAGENT
)。另外,如果我应该改变它,用户代理的最佳实践是什么。谢谢!
是的,您应该这样做,否则他们可能会开始向 SimplePie 维护者(即我 :) 抱怨它。使用自定义用户代理可以让他们知道如果出现问题该联系谁。
理想的格式是“Your Program Name/1.0”,其中 1.0 是版本。您还可以包含 URL(如果这样做,请在它们前面加上 +)和联系地址,使其成为“您的程序名称/1.0 (+http://example.com/)”
你应该改变它吗?嗯,这取决于你在做什么。有些网站会根据 UA 阻止您。那是他们的权利。
如果您尝试抓取数据并且不关心遵守规则,那么您可以将其更改为您想要的任何内容。
最佳做法是表明自己的身份并遵守 robots.txt
我总是将我的应用程序的名称作为用户代理,这样如果我的脚本导致他们的服务器出现问题,服务器管理员可以联系我。(这是任何人关心的唯一原因)