问题标签 [portia]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
719 浏览

python - Portia,如何将数据保存到数据库?

在portia中,我想将数据保存到Mysql之类的数据库中或者做一些事情来清理数据,但是我不知道该怎么做,你能给我一些建议吗?我是scrapy的新手,在线等,非常感谢!

0 投票
1 回答
494 浏览

javascript - 如何在 portia 中呈现 javascript 页面?

我正在使用 portia 来使用 scrapinghub/splash 中间件渲染 JavaScript 页面。但在 portia 中加载作业页面时似乎出现以下错误。

错误:

您的网络浏览器必须启用 JavaScript 才能正确显示此应用程序。

平台:portia-scrapy + scrapinghub/splash。

请让我知道如何解决 mozila firefox 中的此错误。

注意:我也尝试过以下说明:

0 投票
1 回答
209 浏览

python-2.7 - 如何在 Portia scrapy 下拉列表中添加默认字段名称?

我已经从(https://github.com/scrapinghub/portia)下载了 Portia 并在我的 Windows 机器上安装了 Portia,同时启动 Portia 我可以注释页面。

如何添加默认字段下拉列表

我可以使用创建新选项根据需要选择字段并添加名称。

我的问题是我们如何添加默认字段名称,这样我就可以从下拉框中选择它而不是输入名称,而且它也是通用的。

例如,

在下拉列表中,我需要字段名称列表,例如,

职位名称、职位描述、职位位置

谁能帮助我,如何默认添加归档名称而不是创建新选项。

提前致谢。

0 投票
1 回答
535 浏览

python-2.7 - How to use regex in Portia visual scrapy?

I can able to annotate the web pages using Portia web crawler, my question is how can use the Regex while extracting the data.

For Example,

I have extracted Location filed from a page

Output looks like,

Location : Location xyz,abc

enter image description here

But I need only the xyz,abc values.

I have googled for solutions, but not getting more information.

Could you explain about regex in Portia scrapy?

0 投票
1 回答
945 浏览

macos - 尝试在 OSX 或 Ubuntu 上安装 Portia

有人可以帮助我吗?我一遍又一遍地安装 Portia。一切都很顺利,直到我使用了 twistd 命令并得到了这个:

(portia)Matts-Mac-mini:slyd matt$ twistd -n slyd Traceback (most> 最近调用最后一次): File "/Users/matt/portia/bin/twistd", line 14, in run() File "/Users /matt/portia/lib/python2.7/site-packages/twisted/scripts/twistd.py”,第 27 行,在运行 app.run(runApp, ServerOptions) 文件“/Users/matt/portia/lib/python2. 7/site-packages/twisted/application/app.py”,第 642 行,在运行 runApp(config) 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/scripts/twistd.py ”,第 23 行,runApp _SomeApplicationRunner(config).run() 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/application/app.py”,第 376 行,运行 self。 application = self.createOrGetApplication() 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/application/app.py”,第 436 行,在 createOrGetApplication ser = plg.makeService(self.config.subOptions) 文件“/Users/matt/portia/portia/slyd/slyd/tap.py”,第 74 行,在 makeService root = create_root(config) 文件“/Users/matt/portia/portia/ slyd/slyd/tap.py”,第 41 行,在 create_root from .projectspec 导入 create_project_resource 文件“/Users/matt/portia/portia/slyd/slyd/projectspec.py”,第 5 行,从 slybot.validation.schema 导入get_schema_validator

ImportError:没有名为 slybot.validation.schema 的模块。

我还注意到,即使我在正确的目录([virtualenv-name]/portia/slyd)中尝试执行“pip install -r requirements.txt”,requirements.txt 文件不在 slyd 目录中,但是在 portia 目录中。

我在这里发疯了,非常感谢任何帮助。

0 投票
1 回答
413 浏览

python - portia 是不是很简单?

在我尝试portia之前我想知道这个,如果这是真的,那么我不需要自己尝试,因为我已经熟悉scrapy,希望你能帮助我,谢谢!XD

0 投票
1 回答
168 浏览

deployment - centos7使用scrapyd deploy无法部署portia spider

我已经安装了 portia 和 scrapyd。

使用 Portia Web UI 创建新项目 - 一切正常

我可以看到项目文件夹slyd/data/project/new_project

然后我将 new_folder 复制到其他一些不同的部署路径。

更新了 scrapy.cfg 文件如下,

并从new_folder目录打开一个终端,输入以下命令获取部署位置,

只得到以下错误,

错误信息

你能帮我解决这个问题吗?

0 投票
1 回答
306 浏览

python - portia 没有 找不到这样的资源文件

我正在关注portia github repo的自述文件,但我一直在运行服务器

我按照说明在本地运行 portia

当我输入网址时

http://localhost:9001/static/main.html

在浏览器中我收到 404 错误

没有这样的资源

文件未找到。

0 投票
1 回答
373 浏览

python - 未调用 Portia 中的蜘蛛中间件

我已经修改了Using Middleware 中的代码以忽略 Scrapy 中的重复项

我还在 settings.py 中添加了中间件模块:

不会调用 process_request 函数。我尝试更改 settings.py 中中间件键的值,以便在 SpiderletsMiddleware 之前和之后执行它。但是异常和日志消息没有显示在输出中。

如何确保调用中间件?

0 投票
0 回答
137 浏览

python-2.7 - 是否可以通过使用 splash 来支持 Portia 的 JS?

是否可以通过 portia 在 slybot 中使用 splash download middlware middlware 来支持 js?

我正在尝试通过 docker 将 splash 与 portia 连接起来。如何将下载的初始中间件导入到 slybot 路径 "C:\portia-master\portia-master\slybot\slybot" 也让我知道如何在此路径中设置 setting.py 中的路径