问题标签 [portia]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

55 问题

0 投票

0 回答

153 浏览

cookies - 如何在 Portia 中添加 cookie

我正在使用 Portia 抓取网站，但它有一个用于位置选择的弹出窗口。这个 JS 基于，因此我无法与之交互。该网站存储一个 cookie，然后禁用弹出窗口，使该网站可用。
如何在通过 Portia UI 浏览时添加 cookie，以便正确抓取它？

2015-04-23T09:14:27.463

0 投票

1 回答

677 浏览

scrapyd - 由于“未找到模块..”，无法使用 scrapyd-deploy 部署 portia 项目

我正在评估 portia 并遇到部署到 scrapyd 的问题。

当我尝试使用部署我的 portia 项目时

从我的 portia 项目目录中，我收到以下错误消息

我有一个运行 portia 的 docker 容器和另一个运行 scrapyd 的容器。

我的项目通过portiacrawl成功运行。我还尝试使用成功部署的startproject和命令创建一个简单的scrapy项目genspiderscrapyd

我不确定在哪里可以找到生成的 egg 文件。

Scrapyd日志

有什么我想念的想法吗？

scrapyd portia

2015-06-04T18:35:59.707

0 投票

1 回答

159 浏览

python - 运行蜘蛛时如何在日志中写入日志？

在运行scrapy spider时，我看到日志消息有“DEBUG：”，其中有 1. DEBUG: Crawled (200) (GET http://www.example.com ) (referer: None) 2. DEBUG: Scraped from （200 http://www.example.com）

我想知道 1. 那些“抓取”和“抓取”的意思是什么？2. 两个 ULR 上面的那些从哪里返回（即在抓取页面时哪个变量/参数保存了这些 URL）

python scrapy scrapyd portia

2015-06-11T10:42:54.920

0 投票

0 回答

119 浏览

python - 如何在 Portia 蜘蛛部署中从 Crawled 而不是 Scraped 获取 URL？

我正在scrapyd 中部署一个Portia 蜘蛛。在部署时，我为每个链接解析传递 URL

示例：蜘蛛抓取http://www.example.com/query1的 URL（比如 URL_1）是，我传递的 URL（比如 URL_2）是http://www.example.com/query2提取内容。

我的蜘蛛从 URL_2 中提取内容并将其存储到相应的项目中。这可以。

我将 [URL] 项目和 URL_2 存储在项目中，但我想要将 URL_1 存储在 [URL] 项目中。

任何解决方案？

python scrapy scrapyd urlparse portia

2015-06-12T10:13:27.367

0 投票

1 回答

353 浏览

python-2.7 - 如何在 scrapyd 中获取请求和响应计数？

我正在尝试在 scrapyd 中获取请求和响应计数，同时运行多个蜘蛛意味着动态 8 个蜘蛛。我尝试使用 python 获取这些计数。

以下计数：

谢谢，

python-2.7 scrapy scrapyd portia

2015-07-22T10:27:17.423

0 投票

0 回答

166 浏览

python-2.7 - 如何在scrapyd中获得虚拟scrapy stuts计数

我如何在 scrapyd 中获得“DummyStatsCollector”。我已经从这个链接“ http://doc.scrapy.org/en/latest/topics/stats.html#dummystatscollector ”进行了研究。但是没有关于在scrapyd中获取抓取状态的简要说明。

我希望能够执行 curl http://localhost:6800/stats.json -d project=default -d spider=somespider 之类的操作，它会返回 {"pages_crawled": "650","pages_per_min":" 342","items_scraped":"286","items_per_min":"156"}

但我收到此错误：

谢谢

python-2.7 scrapy scrapy-spider scrapyd portia

2015-07-22T14:56:12.287

0 投票

0 回答

76 浏览

python - Portia 爬网中的字段如何存储在列表中？

编辑：
我看到，在运行 Portia spider 时，提取的字段存储在 python 变量 list[] 中，并在将提取的详细信息记录到 scrapyd 时返回值。

我只想知道如何在蜘蛛运行中提取字段并将这些字段存储在 list[] 中？（即工作流程）

python scrapyd portia scrapinghub

2015-08-07T11:45:19.317

0 投票

1 回答

106 浏览

scrapy - 如何获得最少使用portia的网站文章

我正在使用portia抓取网站的文章，现在我想知道在运行portia蜘蛛时如何每天获取最少的文章？

我有一个想法，使用文章中的日期时间，并与现在的日期时间进行比较。但是有更好的吗？

scrapy portia

2015-09-01T09:26:20.253

0 投票

1 回答

97 浏览

scrapy - 如何从 html 使用 `portia` 获取`keywords`

现在我想从网页中抓取keywords元数据，如下所示：description

我昨天google了，但不知道，请给我一些建议。

scrapy portia

2015-09-08T01:48:29.987

0 投票

1 回答

1512 浏览

azure - 如何在 Azure Web App 上运行 Scrapy/Portia

我正在尝试在 Microsoft Azure Web App 上运行 Scrapy 或 Portia。我通过创建虚拟环境安装了 Scrapy：

然后安装 Scrapy：

安装似乎工作。但是执行蜘蛛会返回以下输出：

文档http://doc.scrapy.org/en/latest/intro/install.html说我必须安装pywin32。我不知道如何通过命令行下载/安装它，因为我在 Web 应用程序环境中。

甚至可以在 Azure Web 应用程序上运行 Scrapy 或 Portia，还是我必须在 Azure 上使用成熟的虚拟机？

谢谢！

azure scrapy portia

2015-09-13T23:27:33.310

1 2 3 4 5 6 7 8 9 10

问题标签 [portia]

Reference