我正在尝试从抓取的站点中删除一些文本,但不确定可以使用哪些函数或库来简化此操作:
我从 PhantomJS 运行的代码示例:
var latest_release = page.evaluate(function () {
// everything inside this function is executed inside our
// headless browser, not PhantomJS.
var links = $('[class="interesting"]');
var releases = {};
for (var i=0; i<links.length; i++) {
releases[links[i].innerHTML] = links[i].getAttribute("href");
}
// its important to take note that page.evaluate needs
// to return simple object, meaning DOM elements won't work.
return JSON.stringify(releases);
});
类interesting
有我需要的东西,周围是新的行和标签等等。
这里是:
{"\n\t\t\t\n\t\t\t\tI_Am_Interesting\n\t\t\t\n\t\t":null,"\n\t\t\t\n\t\t\t\tI_Am_Interesting\n\t\t\t\n\t\t":null,"\n\t\t\t\n\t\t\t\tI_Am_Interesting\n\t\t\t\n\t\t":null}
我试过string.slice("\n");
了,什么也没发生,我真的想要一种有效的方法来剪掉这样的字符串,基于它与那些\n'
's 和\t
's 的关系
顺便说一句,这是我的拆分代码:
var x = latest_release.split('\n');
干杯。