我正在尝试抓取一些需要 unicode 支持的网站。例如,我正在尝试获取这本书的标题,但它返回的字符混乱:
(-> "http://www.brill.nl/publications/evliya-celebis-book-travels"
java.net.URL. enlive/html-resource
(enlive/select [:h1#page-title]) first :content)
并试图抓取一个阿拉伯语网站返回 ?????? 到处都是。
(enlive/html-resource (java.net.URL. "http://www.aljazeera.net/portal"))
我不确定我应该如何激活 unicode 支持。