问题标签 [portia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 波西亚蜘蛛不爬行物品
我已经使用 Portia UI 创建了一个蜘蛛,并且我已经使用 scrapyd 在我的一个虚拟机中进行了部署和调度。Spider 运行良好并抓取了网站内容。
但是当我尝试使用scrapyd在另一个类似的虚拟机中部署和调度同一个蜘蛛时,蜘蛛运行良好但没有抓取任何内容。
两台机器具有相似的配置、设置、软件包和版本。
可能的问题是什么?
编辑
我已经完成了以下操作
- 使用 docker 在我的机器中安装了所有 Portia 包
- 创建了一个蜘蛛(比如 myspider)
- 使用 scrapyd 部署并安排了该蜘蛛
- 从蜘蛛运行中提取了内容
- 克隆了机器并添加到另一个具有不同的网络ISP
- 部署了相同的蜘蛛(myspider)
- 蜘蛛运行良好,但网站内容未提取
- 我创建了一个具有不同 URL 的新蜘蛛,并且该蜘蛛正在正常抓取网站内容
python - 如何解决安装portia的错误
在 ubuntu 16.04 上安装 portia 时遇到问题
我在安装 ubuntu Portia 到 16:04 时遇到问题
我的安装步骤是按照说明http://portia.readthedocs.io/en/latest/installation.html
python - 如何在 docker 中为 scrapinghub portia 编辑文件
我创建了一个管道来将爬取的项目存储在 JSON 文件中,并将管道添加到路径中/slybot/slybot/mypipeline.py
之后,我使用 docker 安装了 Portia 包。安装成功。然后我使用安装文档页面中给出的命令启动了 portia,
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia
我可以在浏览器中加载 portia。我创造了一只蜘蛛。当我尝试运行蜘蛛时,我在管道文件中遇到了错误。
现在我想编辑该文件并修复错误。
我试图将管道从容器复制到本地主机,并通过引用docker copy page再次将其复制到容器中。
但是当我再次运行命令
docker run -i -t --rm -v <PROJECT_FOLDER>/data:/app/slyd/data:rw -p 9001:9001 --name portia portia
并创建一个蜘蛛并尝试运行该蜘蛛时。而且似乎管道文件没有更新。
我发现每次运行 portia run 命令时,都会创建新容器,现在我认为在容器中编辑该管道文件对我不起作用。我对么?
如何在 docker 中单独编辑管道文件而不在 docker 中再次构建 portia?
scrapy - installing portia successful in windows but failed to run
My computer is Win7 64 and I have install vagrant and virtualbox.
I have installed portia through follow way:
The result in the cmd can be showed in this:
.
Given to this result,I think I have successful install portia.
But when I open http://localhost:9001
or http://127.0.0.1:9001
in my chrome browser, there is nothing happened.
And when I open 'http://127.0.0.1:2222
', I can find:
And when I open 'http://33.33.33.10
', I can find:
I also try it again in my Win7_Child_VHD system,but the results is the same.
I also try to install portia in the docker, but it is also failed and I am not remembering the result.
I have also try to install portia in my vmware of ubuntu:14.04 ,but it is too complicated for me and I have to give up.
It has puzzled me for almost three weeks, and I have to give up if i couldn't solve the problem.
I know i can run portia in scrapinghub/portia. But I really want to know how to run portia locally. So i want to know how to resolve the problems.
python - 如何使用 Portia 抓取 Legue Of Legends 召唤师排名数据?
大家好。我的论文项目是关于电子竞技行为分析。我的编程和数据工程师技能有限。
- 我有一个召唤者名单(研究的参与者)
- 我尝试从诸如“lolking.net”之类的页面中抓取他们的排名数据
- 有不同的季节(S1,S2 ...)
- 排名奖章由 .png 标记,而不是数字或文本。(这是最大的问题)
让我们用一个例子来看看这个: [大图链接,不允许嵌入目标]
这是一张召唤师资料的图片,以及包含该信息的物品。我需要,主勋章显示实际赛季(S7)排名图片(青铜_1)。但是也有隐藏的项目,在单击箭头标记的按钮后显示。之后是 HTML 源代码和所需的输出
所需的输出如下:
SUMMONER NAME;S1rank;S2rank;S3rank;S4rank;S5rank;S6rank;S7rank 暗影猎手;NA;NA;NA,NA;青铜_5;silver4;silver_2;青铜_1
StackOverflow 的好人,请帮助我构建这个蜘蛛!我的具体问题:
如何将选择器定位到 Portia 中的排名数据?
- 记住:有隐藏,有时没有,取决于召唤师的游戏历史。(基本上:他们开始玩的时候)
portia - 构建 Docker 映像,错误:standard_init_linux.go:178: exec 用户进程导致“没有这样的文件或目录”
我正在为 portia 构建一个 Docker 映像,但是当我按照以下所有步骤操作时,当我运行 docker run 时,会出现错误:
standard_init_linux.go:178: exec 用户进程导致“没有这样的文件或目录”
我正在遵循的步骤。
步骤1
将浏览器指向 localhost:9001
来自我关注的 github.com/scrapinghub/portia/issues/699
第2步
然后
谢谢你
python - Scrapy webscraping 守望先锋个人资料页面
我对python很陌生,而且一般都在编码。我正在尝试制作一个从守望先锋播放器页面(例如:https : //playoverwatch.com/en-gb/career/pc/eu/Taimou-2526)抓取数据的网络爬虫我尝试使用portia,它工作在云中,但是当我将它导出为scrapy代码时,我无法让它工作。 这是我的波西亚蜘蛛的截图。
这是我的蜘蛛的代码(从 portia 导出为 scrapy):owData.py
这是我的 items.py 代码:
当我使用以下命令运行我的蜘蛛时:
我只是得到一个空的 data.csv 文件。我猜我的物品有问题?我认为 xPath 行应该只是 //tbody,但同样,我对 Python、xPath 或 scrapy 一无所知......
macos - Portia 接口无法连接到服务器 Safari
我按照 portia 站点的说明进行操作:http://portia.readthedocs.io/en/latest/installation.html并 使用 docker 安装它并分配端口 9001 供 portia 运行。这是回应:
$docker run --rm -it -p 9001:9001 -v 项目:/usr/src/app scrapinghub/portia
- 行动=
- 转移
- '[' -z '' ']'
- _跑
- service nginx start nginx: 无法识别的服务
- _set_env
- 路径=/app/portia_server:/app/slyd:/app/slybot
- 导出 PYTHONPATH=/app/portia_server:/app/slyd:/app/slybot
- PYTHONPATH=/app/portia_server:/app/slyd:/app/slybot
- 回声 /app/portia_server:/app/slyd:/app/slybot /app/portia_server:/app/slyd:/app/slybot
- /app/portia_server/manage.py 运行服务器
- /app/slyd/bin/slyd -p 9002 -r /app/portiaui/dist 2017-10-26 04:55:36+0000 [-] 日志已打开。2017-10-26 04:55:36.222260 [-] 初始版本:2.3.3 2017-10-26 04:55:36.222687 [-] 警告:Lua 脚本不可用,因为 'lupa' Python 包未安装 2017- 10-26 04:55:36.222862 [-] Qt 5.5.1,PyQt 5.5.1,WebKit 538.1,sip 4.17,Twisted 17.9.0 2017-10-26 04:55:36.223037 [-] Python 2.7.6(默认,2016 年 10 月 26 日,20:30:19) [GCC 4.8.4] 2017-10-26 04:55:36.223285 [-] 打开文件限制:1048576 2017-10-26 04:55:36.223434 [-] 可以t 碰撞打开文件限制 2017-10-26 04:55:36.452879 [-] Xvfb 已启动:['Xvfb', ':1451098581', '-screen', '0', '1024x768x24', '-nolisten', 'tcp'] 2017-10-26 04:55:37.991820 [-] 站点开始于 9002 2017-10-26 04:55:37。
系统检查未发现任何问题(0 静音)。2017 年 10 月 26 日 - 04:55:38 Django 版本 1.10.5,使用设置 'portia_server.settings' 在http://127.0.0.1:8000/启动开发服务器
但是当我尝试打开http://localhost:9001时 ,我发现该服务器意外断开连接。
谁能解释发生了什么并提供解决方案?谢谢
docker - 如何让波西亚蜘蛛跑起来?
我不能发送我的蜘蛛。
我使用以下代码之一:
我返回的控制台:
但是,这似乎是对文档代码的良好改编:
我对 docker、portia 和 scrapy 完全陌生。
我无法确定问题的根源。
顺便说一句,我不明白这里提出的解决方案: https ://emu.one/scrapy/823487/how-do-i-start-running-portia-spider-how-to-do-it.html
我不知道这个解决方案是否与我有关,因为它似乎没有用于 docker。
我对代码的第一部分也有疑问。我想知道我写的是什么:
我提前谢谢你
python - Portia/Scrapy - 如何替换或添加值以输出 JSON
只是2个快速的疑问:
1- 我希望我的最终 JSON 文件替换文本提取(例如,提取的文本是 ADD TO CART 但我想在我的最终 JSON 中更改为 IN STOCK。这可能吗?
2- 我还想在我的最终 JSON 文件中添加一些不在网站中的自定义数据,例如“商店名称”......所以我抓取的每个产品后面都会有商店名称。可能吗?
我正在使用 Portia 和 Scrapy,因此在这两个平台上都欢迎您提出建议。
我的 Scrapy 蜘蛛代码如下: