2

我已经从互联网上的一个站点将一些页面导入到我的克隆站点。现在的问题是,当导入到 plone 时,它​​会更改 url,从而导致 plone 无法找到文件。因此,在导入之前,以下是其中一个 url 的外观示例:

http://wiki.scandiatransplant.org/?What_Is_Scandiatransplant

导入后,它看起来像这样:

http://localhost:8080/Scandiatransplant/wiki/index.html?What_Is_Scandiatransplant

显然这是一个问题,因为没有名为 index.html 的选项?有没有办法解决这个问题?我在想也许可以通过在 pipeline.cfg 文件中添加一个告诉不要更改 url 的步骤来修复它?这只是一个猜测。而且我还没有制作 pipeline.cfg。该站点: http: //plone.org/products/funnelweb/#using-a-local-pipeline-configuration解释说可以制作一个 pipeline.cfg 文件,但它没有说明该文件的放置位置。我应该把这个文件放在哪里?

最后......它可以通过正则表达式表示在导入过程中要忽略哪些文件,但我没有告诉 funnelweb 忽略任何文件。它仍然不导入图像、pdf 文件、xslt 等。有没有人也遇到过这种情况?

所以,总结一下我的问题。

  1. 我应该将 pipeline.cfg 文件放在哪里?

  2. 如何使 plone/funnel 不更改 url,但在导入时保留相同的 url?

  3. 如何让 funnelweb 也导入图像和 pdf 文件?

4

1 回答 1

3
  1. 您可以将 pipeline.cfg 文件放在任何地方;你告诉funnelweb从命令行在哪里找到它:

    bin/funnelweb --pipeline=path/to/your/pipeline.cfg
    
  2. 这更复杂。您的目标站点是一个 Wiki,页面名称是那里的查询字符串的一部分。?What_Is_Scandiatransplant需要作为新Plone页面的id,其他页面使用的URL需要重写才能匹配。

    你当然可以在管道中做到这一点,但比这里容易写的要复杂一些。遵循文档funnelweb(该urltidy组件将帮助重写 URL),并随时就您在 SO 上遇到的问题提出具体问题。

  3. 检查日志并查看 funnelweb 已经找到和上传的内容。您可能需要调整网络爬虫设置;这因站点而异。如果没有有关该站点的更多详细信息,我只能给您这个一般性提示。

于 2013-02-04T12:49:50.823 回答