3

我正在尝试在旧的 TYPO3 4.5 网站上使用索引搜索和 sitecrawler 索引页面 - 但我尝试了几乎任何方法都无济于事。

我正在运行站点爬虫,它将获得可以被爬取的 URL 的完整列表,并且我正在运行整个队列

在此处输入图像描述

我已经设置了“索引配置”

在此处输入图像描述

和一个网站爬虫

在此处输入图像描述

但它不会索引

在此处输入图像描述

“cache_pages”表似乎也为空 - 但所有页面都启用了缓存。

我会错过什么?

4

2 回答 2

2

显示爬虫队列的屏幕截图看起来不错。爬虫似乎配置正确,但索引搜索没有索引页面。空页缓存表明您已禁用缓存 shomehow。

索引搜索是在满足少数条件时索引页面:

  1. 页面是可缓存的(page.config.no_cache = 1TypoScript 中没有,页面属性中没有禁用缓存,PHP 代码中没有禁用缓存)
  2. 源代码中有特殊标记 <!--TYPO3SEARCH_begin--><!-- TYPO3SEARCH_end-->
  3. page.config.index_enable = 1设置了 TypoScript
  4. 该页面被访问的用户未登录到后端或爬虫

您可以检查的是:

  • 请在 TypoScript 对象浏览器中验证 index_enable 和 no_cache 值对于未编入索引的页面是否具有正确的值。
  • 在扩展管理器中为爬虫和索引搜索启用调试模式
  • 单击某些未编入索引的页面的“队列 ID”列中的数字并检查那里显示的数据。
  • 在开始索引之前仔细检查索引搜索配置记录中的“会话 id”字段是否为空
  • 从索引搜索配置记录的“下一个索引日期”字段中删除日期

几个有用的链接:

于 2016-03-30T15:38:09.950 回答
0

如果 Tymoteusz 的建议都不起作用,请检查您是否使用自签名证书以 https 模式运行您的网站(例如,如果您在本地计算机上开发)。如果是这种情况,只需在没有 https 的情况下运行您的网站并重新测试爬虫。我最近测试了一个正确配置了爬虫和 indexed_search 的 TYPO3 6.2 网站,并且页面从未被编入索引。我在爬虫日志中收到的错误是一条空的错误消息,并且在数据库中 tx_crawler_queue 表显示值 b:0; 在“结果数据”列中。一旦我传递给http,一切都很好。

在生产中,只要您使用有效的证书,它就可以使用 https 正常工作。

于 2017-08-14T09:00:46.727 回答