我正在使用过滤器生成对网络爬虫可见的动态内容(https://developers.google.com/webmasters/ajax-crawling/docs/specification)。如果传入的 url 包含路径 ( http://www.unclestock.com/app.jsp#!s=GOOG ),则此过滤器工作正常。如果传入的 url 只包含我的域(和一个片段),比如http://www.unclestock.com#!s=GOOG,则返回欢迎文件 (app.jsp),但不支持过滤器。
我的 web.xml 包含以下过滤器映射:
<filter-mapping>
<filter-name>crawler</filter-name>
<url-pattern>/app.jsp</url-pattern>
</filter-mapping>
<welcome-file-list>
<welcome-file>app.jsp</welcome-file>
</welcome-file-list>
我尝试改用 index.html 欢迎文件,该文件重定向到 app.jsp。然后执行过滤器。但是,这并不能解决我的问题:爬虫不遵循客户端重定向(这是想法),并且使用服务器端重定向,我会丢失我的 url 片段(我也需要)。
您是否看到任何替代解决方案?
我正在使用谷歌应用引擎。