问题标签 [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
665 浏览

python - 如何整合蜘蛛和scrapy-ctl.py

我是python和scrapy的新手,因此遇到了一些基本的疑问(请避免我对一些基础知识的无知,我愿意学习:D)。

现在我正在编写一些蜘蛛并在命令行中使用 scrapy-ctl.py 来实现它们,方法是输入:

但我不想要两个单独的 python 代码和一个命令行来实现这个。我想以某种方式定义一个蜘蛛,并通过编写和运行一个 python 代码让它抓取 url。我可以注意到在文件 scrapy-ctl.py , 'execute' 类型的函数被导入,但我不知道如何在包含蜘蛛的代码中定义这个函数。如果可能的话,有人可以解释我如何做到这一点,因为它大大减少了工作。

提前致谢!!

0 投票
1 回答
178 浏览

python - 如何从另一个脚本将字符串解析为蜘蛛

我是 python 和 scrapy 的新手。我正在使用子进程模块从另一个python脚本运行scrapy-ctl.py。 但是我想从这个脚本本身解析'start url'到蜘蛛。是否可以解析start_urls(在脚本中确定) scrapy-ctl 运行)到蜘蛛?对于有关此的任何建议或想法,我将不胜感激...... :)

先谢谢了。。。。

0 投票
1 回答
1479 浏览

java - 我们如何从java运行python脚本(使用nltk和scrapy)

我在我的项目中编写了使用 scrapy、nltk 和 simplejson 的 python 脚本,但我需要从 java 运行它们,因为我的导师想要将它们部署在服务器上,而我做这件事的时间非常少。我看了一眼运行时。 java和jython中的exec(),不用说从java运行系统命令看起来也不简单。

所以我想知道是否从 java 作为系统命令运行 python 脚本 - 'python example.py' 使用 runtime.exec() 或者使用 jython 会更简单,实际上可行,或者是否有更简单的解决方法。它会也很高兴知道是否有人使用 Jython 运行了使用来自 java 的 nltk 的 python 代码,以及他们是否遇到任何问题。请帮助我,因为我必须尽快这样做。欢迎对此提出任何想法和建议。

提前致谢!!

0 投票
5 回答
13079 浏览

python - 有没有人有 Scrapy 中 sqlite 管道的示例代码?

我正在 Scrapy 中寻找一些 SQLite 管道的示例代码。我知道没有内置的支持它,但我确信它已经完成了。只有实际的代码可以帮助我,因为我只知道足够的 Python 和 Scrapy 来完成我非常有限的任务,并且需要代码作为起点。

0 投票
1 回答
1514 浏览

python - 基于 Scrapy 的 Python 函数完全爬取一个网站

我最近发现了Scrapy,我觉得它非常有效。但是,我真的不知道如何将它嵌入到用 python 编写的更大的项目中。我想以正常方式创建一个蜘蛛,但能够在给定的 url 上使用函数启动它

这将在给定域上启动爬网过程,并且仅在看到所有页面时才停止。

0 投票
4 回答
755 浏览

python - 在 Python 中需要正则表达式方面的帮助

请帮助从字符串中制作,例如:

字符串如:

在 Python 中使用正则表达式

!note testsite.com 更改

0 投票
4 回答
10448 浏览

python - 如何从 python 脚本结果中删除 u''?

我正在尝试使用 python/scrapy 编写解析脚本。如何从结果文件中的字符串中删除 [] 和 u'?

现在我有这样的文字:

运行后我有这样的结果

和文件中的这个文本:

0 投票
1 回答
817 浏览

python - 如何从 Python 框架 Scrapy 中的页面解析 RSS 链接(获取 ulr 到 RSS)?

我想解析 Google 搜索并从搜索结果中的每个项目中获取指向 RSS 的链接。我使用 Scrapy。我试过这个结构,

但是“打印qqq”给了我

0 投票
3 回答
2561 浏览

scrapy - 速度最快的网络图爬虫?

在过去的一个月里,我一直在使用 Scrapy 进行我已经开始的网络爬虫项目。

该项目涉及从主页可访问的单个域名中提取所有网页的完整文档内容。使用 Scrapy 编写这个非常容易,但是它运行得太慢了。2-3天我只能拉下10万页。

我已经意识到我最初的想法是 Scrapy 不适合这种类型的爬行,这正在暴露自己。

我已经开始将目光集中在 Nutch 和Methabot上,以期获得更好的性能。在抓取过程中我需要存储的唯一数据是网页的全部内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成)。

我正在寻找一个快速且采用许多并行请求的爬虫。

0 投票
4 回答
6665 浏览

python - 在 Mac OS X 上安装 libxml2 的问题

我正在尝试在我的 Mac(OS 10.6.4)上安装 libxml2。我实际上只是想在 Python 中运行一个 Scrapy 脚本,这需要我安装 Twisted、Zope,现在又安装了 libxml2。我已经下载了最新版本(2.7.7,来自 xmlsoft.org)并尝试在此处按照这些说明进行操作。总而言之,我尝试了这个命令(在 python 子目录中):

我最终得到这个错误:

有任何想法吗?

我也试过运行这个命令:

我收到以下错误:

这能说明情况吗?