我正在使用 Solrj 来索引 Solr 中的文档,其中一个字段是 url。在创建 solr 文档并随后将其传递给 SolrServer 时,我没有进行任何显式解码,以保持 url 的原始格式。但是,一旦它被编入索引,网址就会被解码。
这是一个包含撇号的测试示例。
http://test.com/test/Help/What%e2%80%99s_N1
在 solr 索引中,它被解码为
http://test.com/test/Help/What's_N1
这是一个示例代码:
SolrServer solrServer = new StreamingUpdateSolrServer(solrPostUrl, solrQueueSize, solrThreads);
SolrInputDocument solrDoc = new SolrInputDocument();
solrDoc.addField("url", "http://test.com/test/Help/What%e2%80%99s_N1");
UpdateResponse solrResponse = solrServer.add(solrDoc);
我查看了 SolrInputDocument 对象,它确实具有正确的格式,即编码版本。
如果有人可以为此提供指针,我将不胜感激。
谢谢