问题标签 [portia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
153 浏览

cookies - 如何在 Portia 中添加 cookie

我正在使用 Portia 抓取网站,但它有一个用于位置选择的弹出窗口。这个 JS 基于,因此我无法与之交互。该网站存储一个 cookie,然后禁用弹出窗口,使该网站可用。
如何在通过 Portia UI 浏览时添加 cookie,以便正确抓取它?

0 投票
1 回答
677 浏览

scrapyd - 由于“未找到模块..”,无法使用 scrapyd-deploy 部署 portia 项目

我正在评估 portia 并遇到部署到 scrapyd 的问题。

当我尝试使用部署我的 portia 项目时

从我的 portia 项目目录中,我收到以下错误消息

我有一个运行 portia 的 docker 容器和另一个运行 scrapyd 的容器。

我的项目通过portiacrawl成功运行。我还尝试使用成功部署的startproject和命令创建一个简单的scrapy项目genspiderscrapyd

我不确定在哪里可以找到生成的 egg 文件。

Scrapyd日志

有什么我想念的想法吗?

0 投票
1 回答
159 浏览

python - 运行蜘蛛时如何在日志中写入日志?

在运行scrapy spider时,我看到日志消息有“DEBUG:”,其中有 1. DEBUG: Crawled (200) (GET http://www.example.com ) (referer: None) 2. DEBUG: Scraped from (200 http://www.example.com

我想知道 1. 那些“抓取”和“抓取”的意思是什么?2. 两个 ULR 上面的那些从哪里返回(即在抓取页面时哪个变量/参数保存了这些 URL)

0 投票
0 回答
119 浏览

python - 如何在 Portia 蜘蛛部署中从 Crawled 而不是 Scraped 获取 URL?

我正在scrapyd 中部署一个Portia 蜘蛛。在部署时,我为每个链接解析传递 URL

示例:蜘蛛抓取http://www.example.com/query1的 URL(比如 URL_1)是,我传递的 URL(比如 URL_2)是http://www.example.com/query2提取内容。

我的蜘蛛从 URL_2 中提取内容并将其存储到相应的项目中。这可以。

我将 [URL] 项目和 URL_2 存储在项目中,但我想要将 URL_1 存储在 [URL] 项目中。

任何解决方案?

0 投票
1 回答
353 浏览

python-2.7 - 如何在 scrapyd 中获取请求和响应计数?

我正在尝试在 scrapyd 中获取请求和响应计数,同时运行多个蜘蛛意味着动态 8 个蜘蛛。我尝试使用 python 获取这些计数。

以下计数:

谢谢,

0 投票
0 回答
166 浏览

python-2.7 - 如何在scrapyd中获得虚拟scrapy stuts计数

我如何在 scrapyd 中获得“DummyStatsCollector”。我已经从这个链接“ http://doc.scrapy.org/en/latest/topics/stats.html#dummystatscollector ”进行了研究。但是没有关于在scrapyd中获取抓取状态的简要说明。

我希望能够执行 curl http://localhost:6800/stats.json -d project=default -d spider=somespider 之类的操作,它会返回 {"pages_crawled": "650","pages_per_min":" 342","items_scraped":"286","items_per_min":"156"}

但我收到此错误:

谢谢

0 投票
0 回答
76 浏览

python - Portia 爬网中的字段如何存储在列表中?

编辑:
我看到,在运行 Portia spider 时,提取的字段存储在 python 变量 list[] 中,并在将提取的详细信息记录到 scrapyd 时返回值。

我只想知道如何在蜘蛛运行中提取字段并将这些字段存储在 list[] 中?(即工作流程)

0 投票
1 回答
106 浏览

scrapy - 如何获得最少使用portia的网站文章

我正在使用portia抓取网站的文章,现在我想知道在运行portia蜘蛛时如何每天获取最少的文章?

我有一个想法,使用文章中的日期时间,并与现在的日期时间进行比较。但是有更好的吗?

0 投票
1 回答
97 浏览

scrapy - 如何从 html 使用 `portia` 获取`keywords`

现在我想从网页中抓取keywords元数据,如下所示:description

我昨天google了,但不知道,请给我一些建议。

0 投票
1 回答
1512 浏览

azure - 如何在 Azure Web App 上运行 Scrapy/Portia

我正在尝试在 Microsoft Azure Web App 上运行 Scrapy 或 Portia。我通过创建虚拟环境安装了 Scrapy:

然后安装 Scrapy:

安装似乎工作。但是执行蜘蛛会返回以下输出:

文档http://doc.scrapy.org/en/latest/intro/install.html说我必须安装pywin32。我不知道如何通过命令行下载/安装它,因为我在 Web 应用程序环境中。

甚至可以在 Azure Web 应用程序上运行 Scrapy 或 Portia,还是我必须在 Azure 上使用成熟的虚拟机?

谢谢!