问题标签 [portia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
634 浏览

python-2.7 - windows上的portia(scrapy / slybot)错误

我安装了portia并让它工作我注释了一些网站(看起来真的很好)但是当我尝试运行蜘蛛时我得到了一些错误并且没有任何东西被抓取
我在win 7上运行python 2.7.6

0 投票
1 回答
692 浏览

python - 在 Mac OSX 10.9.2 上安装 Scrapy 时出错

每当我尝试为一个支持scrapy的python项目安装所需的包时,我都会收到以下错误。

我尝试使用 sudo 进行安装,但没有成功。让我知道可能出了什么问题。如果有任何帮助,我已经从其他基于 python 的安装中得到了类似的错误,我试图解决这个问题。

0 投票
1 回答
982 浏览

python - 在 scrapyd 中安排一个蜘蛛并传递蜘蛛配置选项

我正在尝试将使用 slyd 创建的蜘蛛配置为使用scrapy-elasticsearch,所以我发送-d parameter=value配置它:

这是应该进入 settings.py 的默认配置:

我还没有找到一种方法来配置 slyd 以使用每个新蜘蛛自动生成这些设置,所以我试图将选项作为-d参数传递。scrapyd 仍然运行蜘蛛,但没有保存到 elasticsearch,错误日志显示如下:

0 投票
1 回答
1237 浏览

scrapy - 如何使用 Portia/Scrapy Spider 从一页中提取多个项目

我有一个要抓取的网站。它包含我希望在每个页面上提取的多个项目。

它非常类似于在线黄页。它包含每个项目的标题、电话号码和类别...由于这显然不足以将整个页面单独显示出来,因此这些项目都在列表中。有些页面包含 3 个项目,有些页面包含 10 个左右。

--Edit 1-- 我已经成功地抓取了许多网站,但他们都可以访问一个只包含一个项目的页面。这在这里是不可能的,并且由于需要不同的模板,它会将多个项目作为一个项目返回,或者只是一个随机位。

0 投票
3 回答
2201 浏览

scrapy - 如何开始运行 portia spider?

来自https://github.com/scrapinghub/portia#running-a-portia-spider的给定语法

我试着跑步

但他们给了我同样的帮助信息。

我对波西亚很陌生,所以我很困惑该怎么做。谁能给我一个我应该为 PROJECT_PATH 写什么的样本?我目前正在通过 vagrant 使用 portia。

0 投票
0 回答
282 浏览

scrapy - 如何在 Portia / Scrapy 中使用多个模板

我已经根据以下教程成功安装了 Portia:

http://www.akashjaindxb.com/2014/05/12/install-setup-and-use-portia-webcrawler/

一切都运行良好。但是,我要蜘蛛的网站对某些项目有不同的布局,因此我需要多个模板。

上面的教程中提到了可以使用多个模板,但没有说明在爬取时如何实际使用多个模板。

有人知道如何指示 PORTIACRAWL 使用多个模板。非常感谢您提前。

0 投票
2 回答
1366 浏览

python - 使用 portia (scrapy) 从网站中提取 Meta 标签

使用 portia (scrapy) 从网站中提取 Meta 标签

我想使用 portia 从某个网站中提取元标签,但它没有显示 head 标签,它仅从 body 标签开始

我只能从身体标签中提取数据

0 投票
1 回答
4002 浏览

python - 如何使用scrapy递归抓取整个网站

我想使用scrapy抓取完整的网站,但现在它只抓取单个页面

有什么方法可以使用 portia 提取元标记?

0 投票
1 回答
247 浏览

python - 安装portia时出现安装错误

按照 github 页面上的说明进行操作。当然,由于我使用的是 Windows 7 系统,因此必须进行一些小改动。我在为 portia 运行创建虚拟环境之后说到点子上了。我正在尝试使用 pip 安装所需的软件包。

它以log失败。

现在在shell中我尝试运行twistd,它给出了错误提示找不到命令。我什至尝试如下:

为了在 Windows 上进行这项工作,是否有其他程序可以遵循?

0 投票
1 回答
841 浏览

python - 无法使用 scrapyd-deploy 部署 portia spider

你能帮我弄清楚我做错了什么吗?以下是步骤:

  • 遵循此处找到的 portia 安装手册https://github.com/scrapinghub/portia - 一切正常
  • 创建了一个新项目,输入了一个 url,标记了一个项目 - 一切正常
  • 单击“继续浏览”,浏览网站,按预期提取项目 - 一切正常

接下来我想部署我的蜘蛛:

第一次尝试:我尝试按照文档指定的方式运行scrapyd-deploy your_scrapyd_target -p project_name- 出现错误 - 未安装 scrapyd 修复:pip install scrapyd

第二次尝试:我启动了scrapyd服务器,访问-一切http://localhost:6800/正常

在简要阅读了scrapyd docs后,我发现我必须从我的项目中编辑文件scrapy.cfg:slyd/data/projects/new_project/scrapy.cfg 添加了以下内容:

回到控制台,检查一切正常:

看起来不错,所以我又试了一次:

我错过了什么?