0

nutch 爬行者let's像你一样爬行Let’s???是否有任何设置可以更改此字符集..

4

2 回答 2

1

’是单引号(不是撇号)的 UTF-8 编码,您将其解释为 Windows-1252。您需要使用正确的编码 (UTF-8)。 此链接可能会有所帮助。

于 2011-02-01T16:52:31.980 回答
1

我自己没有使用过 Nutch,但这个页面看起来很相关:

要启用 UTF-8 字符的传递,请编辑 $TOMCAT/conf/server.xml。找到 Web 的 <Connector> 标记(查找“8080”)并插入此参数分配:URIEncoding="UTF-8",如http://tomcat.apache.org/faq/connectors 中的 Tomcat 5 FAQ 中所述。 html#utf8

于 2011-02-01T16:53:11.823 回答