我有一个用 Java 编写的网络爬虫软件,它可以通过任何给定的网站并收集数据。到现在为止还挺好。我使用 JSoup API 是为了方便,但这无关紧要。我的问题在于编码。
当我在服务器上运行 Jar 文件时(使用 java -jar Crawler.jar),它完美地捕获了数据——包括国际重音,如 á、é 等等。但是...当我通过 crontab 安排它时,它只会搞砸每个非基本字符!这里可能是什么问题?我真的很茫然,一个答案真的会拯救我的皮肤。
编辑 - 一位朋友建议我使用以下代码检查 Cron 上运行的语言环境:
*/1 * * * * locale > /home/user/locale.ouput
我做到了,似乎 crontab 使用的是 POSIX 语言环境,而不是系统设置,即 UTF-8。我将看看如何将其更改为 UTF-8。任何提示将不胜感激!