2

大家。我想编写一个 bash 脚本来使用终端的谷歌翻译并将英文翻译成中文。我的计划是先用 wget 翻译英文,然后用 sed 得到结果。所以我用
wget -qO- --header="Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" --header="Accept-Charset:GBK,utf-8;q=0.7,*;q=0.3" --header="Accept-Encoding:gzip,deflate,sdch" --header="Accept-Language:en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4" -U "Mozilla/5.0 (X11; Linux i686) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.27 Safari/536.11" http://translate.google.cn/#en/zh-CN/hello | gunzip > out.html.
我也刚试过wget -U "Mozilla/5.0" http://translate.google.cn/#en/zh-CN/hello
他们的两个结果似乎都不是我想要的,因为我无法你好从结果中找到中文。
我有什么问题?

4

2 回答 2

6

你做错的是你实际上只是从服务器请求http://translate.google.cn/而不是http://translate.google.cn/#en/zh-CN/hello。这是因为散列后的部分不会发送到服务器,只应该由浏览器使用。谷歌使用这部分使用 Javascript 提出翻译请求。

要获得翻译,您需要向该页面上的 Javascript 使用的 URL 发出请求。像这样的东西会起作用:

curl -A "Mozilla/5.0" 'http://translate.google.com/translate_a/t?client=t&text=hello&hl=en&sl=en&tl=zh-CN&ie=UTF-8&oe=UTF-8&multires=1&prev=btn&ssel=0&tsel=0&sc=1'

前面的命令将打印以下结果:

[[["你好","hello","Nǐ hǎo",""]],[["interjection",["喂"],[["喂",["hello","hey"],,0.0087879393]]]],"en",,[["你好",[5],0,0,1000,0,1,0]],[["hello",4,,,""],["hello",5,[["你好",1000,0,0],["招呼",0,0,0],["打招呼",0,0,0],["个招呼",0,0,0],["喂",0,0,0]],[[0,5]],"hello"]],,,[["en"]],6]

然后您可以使用 sed 获取结果,如下所示:

curl -A "Mozilla/5.0" 'http://translate.google.com/translate_a/t?client=t&text=hello&hl=en&sl=en&tl=zh-CN&ie=UTF-8&oe=UTF-8&multires=1&prev=btn&ssel=0&tsel=0&sc=1' | sed 's/\[\[\["\([^"]*\).*/\1/'

但是,正如其他人所提到的,您不应该使用它来滥用翻译服务,并且对于任何超出实验或 CLI 坏事的事情,您应该(并且可能必须)使用Google Translate API以避免给自己带来麻烦。Google 会监控使用情况,并且肯定会检测到任何滥用其服务的企图。

PS:本人不具备提供法律意见的资格,以上我所认为的“不滥用服务”是100%个人意见,请勿以此为最终决定权。

于 2013-03-02T09:48:15.927 回答
2

您无权提出这些要求。谷歌翻译服务有一个你必须付费的API 。如果我尝试使用您的请求,curl我会得到以下内容:

<!-- Headers... -->
<ins>That’s an error.</ins>
<p>Your client does not have permission to get URL <code>/</code> from this server.
(Client IP address: xx.xxx.xx.xx)<br><br>


<ins>That’s all we know.</ins>
于 2013-03-02T09:12:40.237 回答