问题标签 [portia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cookies - 如何在 Portia 中添加 cookie
我正在使用 Portia 抓取网站,但它有一个用于位置选择的弹出窗口。这个 JS 基于,因此我无法与之交互。该网站存储一个 cookie,然后禁用弹出窗口,使该网站可用。
如何在通过 Portia UI 浏览时添加 cookie,以便正确抓取它?
scrapyd - 由于“未找到模块..”,无法使用 scrapyd-deploy 部署 portia 项目
我正在评估 portia 并遇到部署到 scrapyd 的问题。
当我尝试使用部署我的 portia 项目时
从我的 portia 项目目录中,我收到以下错误消息
我有一个运行 portia 的 docker 容器和另一个运行 scrapyd 的容器。
我的项目通过portiacrawl
成功运行。我还尝试使用成功部署的startproject
和命令创建一个简单的scrapy项目genspider
scrapyd
我不确定在哪里可以找到生成的 egg 文件。
Scrapyd日志
有什么我想念的想法吗?
python - 运行蜘蛛时如何在日志中写入日志?
在运行scrapy spider时,我看到日志消息有“DEBUG:”,其中有 1. DEBUG: Crawled (200) (GET http://www.example.com ) (referer: None) 2. DEBUG: Scraped from (200 http://www.example.com)
我想知道 1. 那些“抓取”和“抓取”的意思是什么?2. 两个 ULR 上面的那些从哪里返回(即在抓取页面时哪个变量/参数保存了这些 URL)
python - 如何在 Portia 蜘蛛部署中从 Crawled 而不是 Scraped 获取 URL?
我正在scrapyd 中部署一个Portia 蜘蛛。在部署时,我为每个链接解析传递 URL
示例:蜘蛛抓取http://www.example.com/query1
的 URL(比如 URL_1)是,我传递的 URL(比如 URL_2)是http://www.example.com/query2
提取内容。
我的蜘蛛从 URL_2 中提取内容并将其存储到相应的项目中。这可以。
我将 [URL] 项目和 URL_2 存储在项目中,但我想要将 URL_1 存储在 [URL] 项目中。
任何解决方案?
python-2.7 - 如何在 scrapyd 中获取请求和响应计数?
我正在尝试在 scrapyd 中获取请求和响应计数,同时运行多个蜘蛛意味着动态 8 个蜘蛛。我尝试使用 python 获取这些计数。
以下计数:
谢谢,
python-2.7 - 如何在scrapyd中获得虚拟scrapy stuts计数
我如何在 scrapyd 中获得“DummyStatsCollector”。我已经从这个链接“ http://doc.scrapy.org/en/latest/topics/stats.html#dummystatscollector ”进行了研究。但是没有关于在scrapyd中获取抓取状态的简要说明。
我希望能够执行 curl http://localhost:6800/stats.json -d project=default -d spider=somespider 之类的操作,它会返回 {"pages_crawled": "650","pages_per_min":" 342","items_scraped":"286","items_per_min":"156"}
但我收到此错误:
谢谢
python - Portia 爬网中的字段如何存储在列表中?
编辑:
我看到,在运行 Portia spider 时,提取的字段存储在 python 变量 list[] 中,并在将提取的详细信息记录到 scrapyd 时返回值。
我只想知道如何在蜘蛛运行中提取字段并将这些字段存储在 list[] 中?(即工作流程)
scrapy - 如何获得最少使用portia的网站文章
我正在使用portia抓取网站的文章,现在我想知道在运行portia蜘蛛时如何每天获取最少的文章?
我有一个想法,使用文章中的日期时间,并与现在的日期时间进行比较。但是有更好的吗?
scrapy - 如何从 html 使用 `portia` 获取`keywords`
现在我想从网页中抓取keywords
元数据,如下所示:description
我昨天google了,但不知道,请给我一些建议。
azure - 如何在 Azure Web App 上运行 Scrapy/Portia
我正在尝试在 Microsoft Azure Web App 上运行 Scrapy 或 Portia。我通过创建虚拟环境安装了 Scrapy:
然后安装 Scrapy:
安装似乎工作。但是执行蜘蛛会返回以下输出:
文档http://doc.scrapy.org/en/latest/intro/install.html说我必须安装pywin32。我不知道如何通过命令行下载/安装它,因为我在 Web 应用程序环境中。
甚至可以在 Azure Web 应用程序上运行 Scrapy 或 Portia,还是我必须在 Azure 上使用成熟的虚拟机?
谢谢!