问题标签 [node.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
416 浏览

node.js - 让 Node.io 通过代理工作

我正在尝试通过代理使用 node.io(网络抓取模块)。我知道它对内置代理的支持未经测试,但我无法让它工作。有谁知道如何让它工作?

谢谢,

0 投票
1 回答
562 浏览

node.js - 在 node.io 中实现 async.parallel 的问题

此处列出的代码将给出部分输出,然后是错误 (self.htmlparser.parseChunk)。当使用 async.series 而不是 async.parallel 时,此示例按预期工作

ping 网络服务将等待 2 秒,然后输出“pong”,以模拟网络服务调用

应用程序.coffee

使用 async.series 输出

使用 async.parallel 输出

系统信息

0 投票
1 回答
520 浏览

node.js - node.io :工作完成后,再做一次

我正在用node.io构建一个刮板

我要抓取的页面每分钟都有新内容。我想每分钟一次又一次地运行我的工作。(好吧,我可以用 bash 脚本来做到这一点,但我想留在 javascript 中)这是一项基本工作:

我怎么能那样做?我是 node.js 的初学者,我在工作中尝试了 setInterval (:没有成功。

0 投票
1 回答
562 浏览

jquery - 带有 NodeJS + Node.io 的选择器内的 jQuery 选择器

我有一个尝试使用 JQuery 抓取网页的 NodeJS 应用程序。在我试图抓取的网页中:

我想通过在第一个 jQuery 选择器中调用 jQuery 选择器来获得“someTextHere”。

不幸的是,“this”似乎指向我的 Node.io Job 对象。此外,“索引”似乎不起作用(如何获取“每个”获取的当前对象的索引?)。

我不太确定发生了什么。帮助任何人?:)

0 投票
2 回答
505 浏览

node.js - 脚本浏览器 Scapper

我可以使用什么来实现以下目标,编写浏览器脚本或以其他方式向服务器发出请求,登录,浏览站点,例如。查找链接并导航到这些链接。

现在,由于我对 NodeJS 感兴趣,所以我正在研究 node.io。它使您可以很容易地抓取网站,但问题是当我尝试发布(登录)时,我什么也得不到!

但我只是得到

即使登录失败,我应该在登录后进入console.log吗?


然后我在想,通过编写浏览器脚本来实现这一点可能更好,它会更接近地模拟真实的请求?

0 投票
1 回答
241 浏览

node.js - 将 node.io 与 Web 服务器一起使用

我从 node.io 开始向后启动了这个网络抓取项目。我的工作方式是:

将以 JSON 格式发出结果:

我的目标是能够在 Web 服务器中运行它,所以如果我指向:

它将能够node.io myjob arg1 arg2使用参数执行命令并检索我的 JSON 输出。

我查看了 node.js,但我找不到任何使用 node.io 的示例,反之亦然来创建 Web 服务器。我知道我正在倒退,但这是我目前陷入困境的地方。任何建议将不胜感激。

0 投票
1 回答
481 浏览

node.js - Node.io 抓取作业第二次失败

我本质上是在尝试即时抓取页面。当您点击此网址时,它会输出抓取作业的结果。第一次一切都很好。我第二次尝试它(通过 job.options.args 传递不同的参数)它甚至不会执行 node.io 作业的 run() 函数。scrape_result第二次返回空(我期望一个对象)。

有什么想法吗?如何确保第二次返回新结果?对于我的抓取工作,我几乎完全使用这里的示例 #3:https ://github.com/chriso/node.io/wiki/Scraping

scraper.js 的摘录(其余部分类似于示例 #3:https ://github.com/chriso/node.io/wiki/Scraping )

然后我的 app.js

0 投票
1 回答
141 浏览

node.js - 如何调用自定义 asnyc 代码来初始化 Node.io 作业一次(在连续调用 input() 之前)?

刚刚发现Node.io,浏览了文档、api 等,它看起来很棒。但是,在构建我的第一份工作exports.job = new nodeio.Job(..)时,input, run,output, reduce, complete我需要某种initialize()方法,这种方法在连续调用input()完成之前调用一次。complete(在工作完成之前调用一次类似的方法)

周围有这样的方法吗?

为了完整性:此代码恕我直言必须是 node.io 流程的一部分(通过一些专用方法),因为在 node.io 范围之外初始化我的异步代码并不能保证在 node.io 作业之前数据已经存在执行。

0 投票
1 回答
1486 浏览

node.js - Node.io、JSDOM 还是 PhantomJs ?或者,YQL-data.html.cssselect?

我需要爬取特定的网站以挖掘出一些相关信息。看起来首先我必须搜索该站点以获取相应的 URL,当被抓取时会给我详细的信息。

假设,搜索 url 是

这意味着,位置和页面可以有city2、city3等。category可以是category2、category3等。

我收集了所有可以递增的城市、类别、位置和页面,直到结果不为空。

得到所有 URL 后,我将不得不从每个 URL 中挖掘出详细信息。我已经看到某些必要的信息作为 javascript 的一部分提供。

现在,我已经看到了 node.io、jsdom 和 phantomjs。我也看过yql。由于我是新手,请根据您的经验建议我,在这种情况下哪个是理想的。

如果你能举出一些例子,那就太棒了。

0 投票
1 回答
150 浏览

node.js - Node.io 没有抛出错误?

我注意到与 nodejs 相比,node.io 没有抛出任何错误,如果有错字的话。不知道为什么。例如:

运行此脚本包含带有节点的“Util2”错字。

将抛出以下错误:

但是,使用具有完全相同错字的 node.io 运行此脚本不会引发任何错误。

不确定 node.io 是否抑制错误消息,因为没有错误消息很难调试。有什么解决办法吗?