0 投票

0 回答

284 浏览

python - 波西亚蜘蛛不爬行物品

我已经使用 Portia UI 创建了一个蜘蛛，并且我已经使用 scrapyd 在我的一个虚拟机中进行了部署和调度。Spider 运行良好并抓取了网站内容。

但是当我尝试使用scrapyd在另一个类似的虚拟机中部署和调度同一个蜘蛛时，蜘蛛运行良好但没有抓取任何内容。

两台机器具有相似的配置、设置、软件包和版本。

可能的问题是什么？

编辑
我已经完成了以下操作
- 使用 docker 在我的机器中安装了所有 Portia 包
- 创建了一个蜘蛛（比如 myspider）
- 使用 scrapyd 部署并安排了该蜘蛛
- 从蜘蛛运行中提取了内容
- 克隆了机器并添加到另一个具有不同的网络ISP
- 部署了相同的蜘蛛（myspider）
- 蜘蛛运行良好，但网站内容未提取
- 我创建了一个具有不同 URL 的新蜘蛛，并且该蜘蛛正在正常抓取网站内容

2016-11-02T13:25:23.793

0 投票

1 回答

4939 浏览

python - 如何解决安装portia的错误

在 ubuntu 16.04 上安装 portia 时遇到问题

我在安装 ubuntu Portia 到 16:04 时遇到问题

我的安装步骤是按照说明http://portia.readthedocs.io/en/latest/installation.html

python web-scraping installation portia

2016-11-18T12:46:48.957

0 投票

0 回答

199 浏览

python - 如何在 docker 中为 scrapinghub portia 编辑文件

我创建了一个管道来将爬取的项目存储在 JSON 文件中，并将管道添加到路径中/slybot/slybot/mypipeline.py

之后，我使用 docker 安装了 Portia 包。安装成功。然后我使用安装文档页面中给出的命令启动了 portia，
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia
我可以在浏览器中加载 portia。我创造了一只蜘蛛。当我尝试运行蜘蛛时，我在管道文件中遇到了错误。

现在我想编辑该文件并修复错误。

我试图将管道从容器复制到本地主机，并通过引用docker copy page再次将其复制到容器中。

但是当我再次运行命令
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia并创建一个蜘蛛并尝试运行该蜘蛛时。而且似乎管道文件没有更新。

我发现每次运行 portia run 命令时，都会创建新容器，现在我认为在容器中编辑该管道文件对我不起作用。我对么？

如何在 docker 中单独编辑管道文件而不在 docker 中再次构建 portia？

python docker docker-container portia scrapinghub

2016-11-24T12:13:09.577

0 投票

0 回答

275 浏览

scrapy - installing portia successful in windows but failed to run

My computer is Win7 64 and I have install vagrant and virtualbox.
I have installed portia through follow way:

The result in the cmd can be showed in this:

.

Given to this result,I think I have successful install portia. But when I open http://localhost:9001 or http://127.0.0.1:9001 in my chrome browser, there is nothing happened.

And when I open 'http://127.0.0.1:2222', I can find:

And when I open 'http://33.33.33.10', I can find:

I also try it again in my Win7_Child_VHD system,but the results is the same.
I also try to install portia in the docker, but it is also failed and I am not remembering the result.
I have also try to install portia in my vmware of ubuntu:14.04 ,but it is too complicated for me and I have to give up.

It has puzzled me for almost three weeks, and I have to give up if i couldn't solve the problem.

I know i can run portia in scrapinghub/portia. But I really want to know how to run portia locally. So i want to know how to resolve the problems.

scrapy portia

2017-01-26T05:14:53.603

0 投票

0 回答

131 浏览

python - 如何使用 Portia 抓取 Legue Of Legends 召唤师排名数据？

大家好。我的论文项目是关于电子竞技行为分析。我的编程和数据工程师技能有限。

我有一个召唤者名单（研究的参与者）
我尝试从诸如“lolking.net”之类的页面中抓取他们的排名数据
- 有不同的季节（S1，S2 ...）
- 排名奖章由 .png 标记，而不是数字或文本。（这是最大的问题）

让我们用一个例子来看看这个： [大图链接，不允许嵌入目标]

这是一张召唤师资料的图片，以及包含该信息的物品。我需要，主勋章显示实际赛季（S7）排名图片（青铜_1）。但是也有隐藏的项目，在单击箭头标记的按钮后显示。之后是 HTML 源代码和所需的输出

所需的输出如下：

SUMMONER NAME;S1rank;S2rank;S3rank;S4rank;S5rank;S6rank;S7rank 暗影猎手;NA;NA;NA,NA;青铜_5;silver4;silver_2;青铜_1

StackOverflow 的好人，请帮助我构建这个蜘蛛！我的具体问题：

如何将选择器定位到 Portia 中的排名数据？

记住：有隐藏，有时没有，取决于召唤师的游戏历史。（基本上：他们开始玩的时候）

python scrapy portia riot-games-api

2017-02-03T16:59:06.033

0 投票

0 回答

918 浏览

portia - 构建 Docker 映像，错误：standard_init_linux.go:178: exec 用户进程导致“没有这样的文件或目录”

我正在为 portia 构建一个 Docker 映像，但是当我按照以下所有步骤操作时，当我运行 docker run 时，会出现错误：

standard_init_linux.go:178: exec 用户进程导致“没有这样的文件或目录”

图片

我正在遵循的步骤。

步骤1

将浏览器指向 localhost:9001

来自我关注的 github.com/scrapinghub/portia/issues/699

第2步

然后

谢谢你

portia

2017-05-12T14:48:50.717

0 投票

0 回答

158 浏览

python - Scrapy webscraping 守望先锋个人资料页面

我对python很陌生，而且一般都在编码。我正在尝试制作一个从守望先锋播放器页面（例如：https : //playoverwatch.com/en-gb/career/pc/eu/Taimou-2526）抓取数据的网络爬虫我尝试使用portia，它工作在云中，但是当我将它导出为scrapy代码时，我无法让它工作。这是我的波西亚蜘蛛的截图。

这是我的蜘蛛的代码（从 portia 导出为 scrapy）：owData.py

这是我的 items.py 代码：

当我使用以下命令运行我的蜘蛛时：

我只是得到一个空的 data.csv 文件。我猜我的物品有问题？我认为 xPath 行应该只是 //tbody，但同样，我对 Python、xPath 或 scrapy 一无所知......

python scrapy web-crawler portia

2017-07-28T13:43:20.993

0 投票

0 回答

63 浏览

macos - Portia 接口无法连接到服务器 Safari

我按照 portia 站点的说明进行操作：http://portia.readthedocs.io/en/latest/installation.html并使用 docker 安装它并分配端口 9001 供 portia 运行。这是回应：

$docker run --rm -it -p 9001:9001 -v 项目：/usr/src/app scrapinghub/portia

行动=
转移
'[' -z '' ']'
_跑
service nginx start nginx: 无法识别的服务
_set_env
路径=/app/portia_server:/app/slyd:/app/slybot
导出 PYTHONPATH=/app/portia_server:/app/slyd:/app/slybot
PYTHONPATH=/app/portia_server:/app/slyd:/app/slybot
回声 /app/portia_server:/app/slyd:/app/slybot /app/portia_server:/app/slyd:/app/slybot
/app/portia_server/manage.py 运行服务器
/app/slyd/bin/slyd -p 9002 -r /app/portiaui/dist 2017-10-26 04:55:36+0000 [-] 日志已打开。2017-10-26 04:55:36.222260 [-] 初始版本：2.3.3 2017-10-26 04:55:36.222687 [-] 警告：Lua 脚本不可用，因为 'lupa' Python 包未安装 2017- 10-26 04:55:36.222862 [-] Qt 5.5.1，PyQt 5.5.1，WebKit 538.1，sip 4.17，Twisted 17.9.0 2017-10-26 04:55:36.223037 [-] Python 2.7.6（默认，2016 年 10 月 26 日，20:30:19) [GCC 4.8.4] 2017-10-26 04:55:36.223285 [-] 打开文件限制：1048576 2017-10-26 04:55:36.223434 [-] 可以t 碰撞打开文件限制 2017-10-26 04:55:36.452879 [-] Xvfb 已启动：['Xvfb', ':1451098581', '-screen', '0', '1024x768x24', '-nolisten', 'tcp'] 2017-10-26 04:55:37.991820 [-] 站点开始于 9002 2017-10-26 04:55:37。

系统检查未发现任何问题（0 静音）。2017 年 10 月 26 日 - 04:55:38 Django 版本 1.10.5，使用设置 'portia_server.settings' 在http://127.0.0.1:8000/启动开发服务器

但是当我尝试打开http://localhost:9001时，我发现该服务器意外断开连接。

谁能解释发生了什么并提供解决方案？谢谢

macos docker portia

2017-10-26T05:09:01.280

0 投票

1 回答

510 浏览

docker - 如何让波西亚蜘蛛跑起来？

我不能发送我的蜘蛛。

我使用以下代码之一：

我返回的控制台：

但是，这似乎是对文档代码的良好改编：

我对 docker、portia 和 scrapy 完全陌生。

我无法确定问题的根源。

顺便说一句，我不明白这里提出的解决方案： https ://emu.one/scrapy/823487/how-do-i-start-running-portia-spider-how-to-do-it.html

我不知道这个解决方案是否与我有关，因为它似乎没有用于 docker。

我对代码的第一部分也有疑问。我想知道我写的是什么：

我提前谢谢你

docker scrapy portia

2018-01-15T15:32:58.510

0 投票

1 回答

290 浏览

python - Portia/Scrapy - 如何替换或添加值以输出 JSON

只是2个快速的疑问：

1- 我希望我的最终 JSON 文件替换文本提取（例如，提取的文本是 ADD TO CART 但我想在我的最终 JSON 中更改为 IN STOCK。这可能吗？

2- 我还想在我的最终 JSON 文件中添加一些不在网站中的自定义数据，例如“商店名称”......所以我抓取的每个产品后面都会有商店名称。可能吗？

我正在使用 Portia 和 Scrapy，因此在这两个平台上都欢迎您提出建议。

我的 Scrapy 蜘蛛代码如下：

python scrapy scrapy-spider portia

2018-04-09T10:46:10.203

问题标签 [portia]

如何将选择器定位到 Portia 中的排名数据？

Reference