问题标签 [portia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Portia,如何将数据保存到数据库?
在portia中,我想将数据保存到Mysql之类的数据库中或者做一些事情来清理数据,但是我不知道该怎么做,你能给我一些建议吗?我是scrapy的新手,在线等,非常感谢!
javascript - 如何在 portia 中呈现 javascript 页面?
我正在使用 portia 来使用 scrapinghub/splash 中间件渲染 JavaScript 页面。但在 portia 中加载作业页面时似乎出现以下错误。
错误:
您的网络浏览器必须启用 JavaScript 才能正确显示此应用程序。
平台:portia-scrapy + scrapinghub/splash。
请让我知道如何解决 mozila firefox 中的此错误。
注意:我也尝试过以下说明:
python-2.7 - 如何在 Portia scrapy 下拉列表中添加默认字段名称?
我已经从(https://github.com/scrapinghub/portia)下载了 Portia 并在我的 Windows 机器上安装了 Portia,同时启动 Portia 我可以注释页面。
我可以使用创建新选项根据需要选择字段并添加名称。
我的问题是我们如何添加默认字段名称,这样我就可以从下拉框中选择它而不是输入名称,而且它也是通用的。
例如,
在下拉列表中,我需要字段名称列表,例如,
职位名称、职位描述、职位位置
谁能帮助我,如何默认添加归档名称而不是创建新选项。
提前致谢。
python-2.7 - How to use regex in Portia visual scrapy?
I can able to annotate the web pages using Portia web crawler, my question is how can use the Regex while extracting the data.
For Example,
I have extracted Location filed from a page
Output looks like,
Location : Location xyz,abc
But I need only the xyz,abc values.
I have googled for solutions, but not getting more information.
Could you explain about regex in Portia scrapy?
macos - 尝试在 OSX 或 Ubuntu 上安装 Portia
有人可以帮助我吗?我一遍又一遍地安装 Portia。一切都很顺利,直到我使用了 twistd 命令并得到了这个:
(portia)Matts-Mac-mini:slyd matt$ twistd -n slyd Traceback (most> 最近调用最后一次): File "/Users/matt/portia/bin/twistd", line 14, in run() File "/Users /matt/portia/lib/python2.7/site-packages/twisted/scripts/twistd.py”,第 27 行,在运行 app.run(runApp, ServerOptions) 文件“/Users/matt/portia/lib/python2. 7/site-packages/twisted/application/app.py”,第 642 行,在运行 runApp(config) 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/scripts/twistd.py ”,第 23 行,runApp _SomeApplicationRunner(config).run() 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/application/app.py”,第 376 行,运行 self。 application = self.createOrGetApplication() 文件“/Users/matt/portia/lib/python2.7/site-packages/twisted/application/app.py”,第 436 行,在 createOrGetApplication ser = plg.makeService(self.config.subOptions) 文件“/Users/matt/portia/portia/slyd/slyd/tap.py”,第 74 行,在 makeService root = create_root(config) 文件“/Users/matt/portia/portia/ slyd/slyd/tap.py”,第 41 行,在 create_root from .projectspec 导入 create_project_resource 文件“/Users/matt/portia/portia/slyd/slyd/projectspec.py”,第 5 行,从 slybot.validation.schema 导入get_schema_validator
ImportError:没有名为 slybot.validation.schema 的模块。
我还注意到,即使我在正确的目录([virtualenv-name]/portia/slyd)中尝试执行“pip install -r requirements.txt”,requirements.txt 文件不在 slyd 目录中,但是在 portia 目录中。
我在这里发疯了,非常感谢任何帮助。
python - portia 是不是很简单?
在我尝试portia之前我想知道这个,如果这是真的,那么我不需要自己尝试,因为我已经熟悉scrapy,希望你能帮助我,谢谢!XD
deployment - centos7使用scrapyd deploy无法部署portia spider
我已经安装了 portia 和 scrapyd。
使用 Portia Web UI 创建新项目 - 一切正常
我可以看到项目文件夹slyd/data/project/new_project
然后我将 new_folder 复制到其他一些不同的部署路径。
更新了 scrapy.cfg 文件如下,
并从new_folder目录打开一个终端,输入以下命令获取部署位置,
只得到以下错误,
你能帮我解决这个问题吗?
python - portia 没有 找不到这样的资源文件
python - 未调用 Portia 中的蜘蛛中间件
我已经修改了Using Middleware 中的代码以忽略 Scrapy 中的重复项。
我还在 settings.py 中添加了中间件模块:
不会调用 process_request 函数。我尝试更改 settings.py 中中间件键的值,以便在 SpiderletsMiddleware 之前和之后执行它。但是异常和日志消息没有显示在输出中。
如何确保调用中间件?
python-2.7 - 是否可以通过使用 splash 来支持 Portia 的 JS?
是否可以通过 portia 在 slybot 中使用 splash download middlware middlware 来支持 js?
我正在尝试通过 docker 将 splash 与 portia 连接起来。如何将下载的初始中间件导入到 slybot 路径 "C:\portia-master\portia-master\slybot\slybot" 也让我知道如何在此路径中设置 setting.py 中的路径