我正在让我的服务器抓取此页面以下载我正在做的电影分析的完整列表: http ://www.imdb.com/chart/top
但是当它出现时,很多电影标题都以另一种语言出现。例如,而不是说肖申克的救赎,它给了我:Побегиз Шоушенка
PHP 中一个简单的 file_get_contents 是最快的重现方式,尽管我使用 curl
任何人对发生的事情有任何想法,如何解决?
更新:IMDB 可能出于某种奇怪的原因将我的服务器解释为在另一个国家/地区。有什么办法可以强制执行它在美国吗?
我正在让我的服务器抓取此页面以下载我正在做的电影分析的完整列表: http ://www.imdb.com/chart/top
但是当它出现时,很多电影标题都以另一种语言出现。例如,而不是说肖申克的救赎,它给了我:Побегиз Шоушенка
PHP 中一个简单的 file_get_contents 是最快的重现方式,尽管我使用 curl
任何人对发生的事情有任何想法,如何解决?
更新:IMDB 可能出于某种奇怪的原因将我的服务器解释为在另一个国家/地区。有什么办法可以强制执行它在美国吗?
在https://secure.imdb.com/register-imdb/siteprefs使用用户帐户并设置标题显示语言
然后在您的爬虫中自动执行登录过程并按照您的正常流程进行操作。
我知道如何在 Windows 环境中处理这个问题。您可以为您的服务器操作系统借用相同的想法。
在带有 WebBrowser 控件的 Windows 中,您可以使用菜单 View -> Encoding 选择正确显示文本的任何语言,然后当您从浏览器控件中获取源页面时,它将采用正确的编码。
您可能会发现 IRobotSoft 网络抓取工具易于用于您的电影分析,它仅在 Windows 平台上运行。