问题标签 [django-dynamic-scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
149 浏览

django - django 动态刮板 range_funct 分页

django-dynamic-scraper在我的一个应用程序中使用,我已经阅读了文档,以下是我的设置:

我正在使用的对象类 url 是:http://www.example.com/products/brandname_products.html

网站上的分页类似于以下内容。

第 1http://www.example.com/products/brandname_products.html 页: 第 2http://www.example.com/products/brandname_products2.html 页: 第 3http://www.example.com/products/brandname_products3.html 页: 第 4 页:http://www.example.com/products/brandname_products4.html

上述brandname网址是动态的,取决于品牌的产品页面。我不能为每个品牌使用不同的刮板,因为有超过 10000 个品牌,所以我尝试使用单个刮板对象。

在我使用的刮板对象中,我定义了分页选项如下:

pagination_type: RANGE_FUNCT
pagination_append_str: _products{page}.html
pagination_page_replace:1,100,2

但刮板请求以下分页网址

http://www.example.com/products/brandname_products.html_products2.html http://www.example.com/products/brandname_products.html_products3.html http://www.example.com/products/brandname_products.html_products4.html

代替

http://www.example.com/products/brandname_products2.html http://www.example.com/products/brandname_products3.html http://www.example.com/products/brandname_products4.html

_products.html问:为什么将替换字符串附加到 url 的末尾,而不是在对象类 url中实际替换它?我做错了什么,我该如何解决这个问题。

0 投票
1 回答
904 浏览

django - 如何让芹菜在heroku和django-dynamic-scraper上与scrapy服务器一起工作?

我正在构建我的第一个包含scrapy的项目。在我的开发服务器(Windows)上一切正常,但在 Heroku 上有一些问题。我正在使用 django-dynamic-scraper 为我处理分配的集成工作。

在 Windows 上,我在单独的命令提示符中运行以下命令:

在heroku上,我运行以下命令:

实际的 dejango 应用程序没有错误或问题,我可以访问管理网站。斗志昂扬的服务器运行:

和芹菜节拍和工人正在工作:

第一个问题:当触发运行蜘蛛的定期任务时,我在 celery 日志中收到以下错误。

所以似乎由于某种原因heroku不允许芹菜访问scrapy服务器。

以下是我的一些设置:

scrapy.cfg

芹菜配置

提前致谢,如果您需要更多信息,请告诉我。

0 投票
1 回答
104 浏览

python - 对 DjangoSpider 解析方法的超级调用不起作用

django-dynamic-scraper在我的一个 django 项目中使用。我正在做的事情很简单。我正在继承类以在其方法dynamic_scraper.spiders.DjangoSpider中具有一些自定义功能。parse以下是我所做的:

现在这里方法中的super调用parse没有被触发。我确保我继承了正确的类并且它确实有一个 parse 方法。

我尝试在DjangoSpider的 parse 方法中打印调试语句,但在 stdout 中看不到任何内容。

如果我在超级调用之后尝试打印相同的调试语句,我会在标准输出中看到这些语句。

有任何想法吗 ?

0 投票
0 回答
1727 浏览

python - Django django.core.exceptions.ImproperlyConfigured:应用程序标签不是唯一的,重复:dynamic_scraper

您好,我是 django_dynamic_scraper 的新手。因为我已经安装了它和 djcelery,但是当我应用迁移时,它会显示此错误。我谷歌它但没有找到任何东西。请具体说明我会更好地理解

这是我的 settings.py

何时申请迁移

这是回溯错误

0 投票
2 回答
628 浏览

python - Django-dynamic-scraper 无法抓取数据

我是使用动态刮刀的新手,我使用以下示例来学习open_news。我已经设置好了所有东西,但它让我一直显示同样的错误:dynamic_scraper.models.DoesNotExist: RequestPageType matching query does not exist.

0 投票
0 回答
148 浏览

django - Django-dynamic-scraper 下载图像时出现 301 错误

我正在尝试使用 django-dynamic-scraper 配置抓取数据。在我决定添加图像抓取之前,一切都运行良好。我已经完成了本文档部分 Scrapy images/screenshots中的所有操作

但是当我运行刮刀时,我会得到这样的结果(下载文件时出现 301 错误)在此处输入图像描述

我将不胜感激任何建议。

0 投票
1 回答
102 浏览

python - 如何使用 django-dynamic-scraper 抓取日期时间 ind 不同的格式

我是 django 的新手,也许我的问题很容易解决,但我在文档中找不到任何解决方法。我想从网上获取日期时间并将其作为日期时间字段存储在模型中。在文档中,我发现了类似日期预处理器的东西,但它仅适用于 eng(和 den?)语言。例如,我在页面上的日期时间看起来像 24 luty 20:00,这意味着 2 月 24 日 20:00。怎么能刮呢?我将不胜感激任何建议

0 投票
0 回答
513 浏览

python - 尝试使用 django-dynamic-scraper (django, scrapy) 收集数据

我在我的一个应用程序中使用 django-dynamic-scraper,我浏览了文档,以下是我的设置: 1)不幸的是,刮板仅适用于第一页,并且仅收集 url_proiect 和问题,另一方面,其他属性保持为空。我尝试为这些对象粘贴相对和绝对 XPath,但没有任何效果。在此处输入图像描述 在此处输入图像描述

2)我不太明白如何为刮板元素和请求页面类型设置详细信息页面。

在这种情况下调试刮板的最佳方法是什么?如何以最少的尝试次数找到正确的 XPath?

0 投票
0 回答
110 浏览

python - 我的 django 应用程序出现奇怪的错误

我正在尝试在我的应用程序中使用 Django 动态刮板,当我尝试运行服务器时,我收到此错误消息

但我在我安装的应用程序中有这个

似乎是什么问题?

编辑

0 投票
0 回答
156 浏览

python - 我在我的应用程序中安装了 django 动态刮刀,当我推送它时,我的应用程序坏了

我在我的应用程序中添加了 django 动态刮板。它在本地工作,所以我将它部署到我的 heroku 服务器,它给我一个服务器错误 500。我的 heroku 日志中没有错误消息,它在本地工作正常。因为我没有错误并且它在本地工作,所以我不知道什么顶级帖子,并且想知道是否有人可能有同样的问题。这对我来说很疯狂。

编辑

我做了一些挖掘工作。我尝试过了

得到了这个

编辑

这是我的 0011_auto_20160816_1834.py

我可以删除吗

再次运行迁移?我不想让我的应用程序完全崩溃。新手程序员,不完全确定这样做对我的应用程序的影响。

编辑

当我运行显示迁移时

当我在生产服务器上的 showmigrations 上运行它时进行编辑