问题标签 [django-dynamic-scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - django 动态刮板 range_funct 分页
我django-dynamic-scraper
在我的一个应用程序中使用,我已经阅读了文档,以下是我的设置:
我正在使用的对象类 url 是:http://www.example.com/products/brandname_products.html
网站上的分页类似于以下内容。
第 1http://www.example.com/products/brandname_products.html
页: 第 2http://www.example.com/products/brandname_products2.html
页: 第 3http://www.example.com/products/brandname_products3.html
页: 第 4 页:http://www.example.com/products/brandname_products4.html
上述brandname
网址是动态的,取决于品牌的产品页面。我不能为每个品牌使用不同的刮板,因为有超过 10000 个品牌,所以我尝试使用单个刮板对象。
在我使用的刮板对象中,我定义了分页选项如下:
pagination_type
: RANGE_FUNCT
pagination_append_str
: _products{page}.html
pagination_page_replace
:1,100,2
但刮板请求以下分页网址
http://www.example.com/products/brandname_products.html_products2.html
http://www.example.com/products/brandname_products.html_products3.html
http://www.example.com/products/brandname_products.html_products4.html
代替
http://www.example.com/products/brandname_products2.html
http://www.example.com/products/brandname_products3.html
http://www.example.com/products/brandname_products4.html
_products.html
问:为什么将替换字符串附加到 url 的末尾,而不是在对象类 url中实际替换它?我做错了什么,我该如何解决这个问题。
django - 如何让芹菜在heroku和django-dynamic-scraper上与scrapy服务器一起工作?
我正在构建我的第一个包含scrapy的项目。在我的开发服务器(Windows)上一切正常,但在 Heroku 上有一些问题。我正在使用 django-dynamic-scraper 为我处理分配的集成工作。
在 Windows 上,我在单独的命令提示符中运行以下命令:
在heroku上,我运行以下命令:
实际的 dejango 应用程序没有错误或问题,我可以访问管理网站。斗志昂扬的服务器运行:
和芹菜节拍和工人正在工作:
第一个问题:当触发运行蜘蛛的定期任务时,我在 celery 日志中收到以下错误。
所以似乎由于某种原因heroku不允许芹菜访问scrapy服务器。
以下是我的一些设置:
scrapy.cfg
芹菜配置
提前致谢,如果您需要更多信息,请告诉我。
python - 对 DjangoSpider 解析方法的超级调用不起作用
我django-dynamic-scraper
在我的一个 django 项目中使用。我正在做的事情很简单。我正在继承类以在其方法dynamic_scraper.spiders.DjangoSpider
中具有一些自定义功能。parse
以下是我所做的:
现在这里方法中的super
调用parse
没有被触发。我确保我继承了正确的类并且它确实有一个 parse 方法。
我尝试在DjangoSpider
的 parse 方法中打印调试语句,但在 stdout 中看不到任何内容。
如果我在超级调用之后尝试打印相同的调试语句,我会在标准输出中看到这些语句。
有任何想法吗 ?
python - Django django.core.exceptions.ImproperlyConfigured:应用程序标签不是唯一的,重复:dynamic_scraper
您好,我是 django_dynamic_scraper 的新手。因为我已经安装了它和 djcelery,但是当我应用迁移时,它会显示此错误。我谷歌它但没有找到任何东西。请具体说明我会更好地理解
这是我的 settings.py
何时申请迁移
这是回溯错误
python - Django-dynamic-scraper 无法抓取数据
我是使用动态刮刀的新手,我使用以下示例来学习open_news。我已经设置好了所有东西,但它让我一直显示同样的错误:dynamic_scraper.models.DoesNotExist: RequestPageType matching query does not exist.
django - Django-dynamic-scraper 下载图像时出现 301 错误
我正在尝试使用 django-dynamic-scraper 配置抓取数据。在我决定添加图像抓取之前,一切都运行良好。我已经完成了本文档部分 Scrapy images/screenshots中的所有操作
但是当我运行刮刀时,我会得到这样的结果(下载文件时出现 301 错误)
我将不胜感激任何建议。
python - 如何使用 django-dynamic-scraper 抓取日期时间 ind 不同的格式
我是 django 的新手,也许我的问题很容易解决,但我在文档中找不到任何解决方法。我想从网上获取日期时间并将其作为日期时间字段存储在模型中。在文档中,我发现了类似日期预处理器的东西,但它仅适用于 eng(和 den?)语言。例如,我在页面上的日期时间看起来像 24 luty 20:00,这意味着 2 月 24 日 20:00。怎么能刮呢?我将不胜感激任何建议
python - 我的 django 应用程序出现奇怪的错误
我正在尝试在我的应用程序中使用 Django 动态刮板,当我尝试运行服务器时,我收到此错误消息
但我在我安装的应用程序中有这个
似乎是什么问题?
编辑
python - 我在我的应用程序中安装了 django 动态刮刀,当我推送它时,我的应用程序坏了
我在我的应用程序中添加了 django 动态刮板。它在本地工作,所以我将它部署到我的 heroku 服务器,它给我一个服务器错误 500。我的 heroku 日志中没有错误消息,它在本地工作正常。因为我没有错误并且它在本地工作,所以我不知道什么顶级帖子,并且想知道是否有人可能有同样的问题。这对我来说很疯狂。
编辑
我做了一些挖掘工作。我尝试过了
得到了这个
编辑
这是我的 0011_auto_20160816_1834.py
我可以删除吗
再次运行迁移?我不想让我的应用程序完全崩溃。新手程序员,不完全确定这样做对我的应用程序的影响。
编辑
当我运行显示迁移时