问题标签 [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
7613 浏览

python - 如何提取一些锚标签之间的文本?

我需要从 HTML 页面中提取艺术家的姓名。这是页面的一个片段:

我已经尝试过了,但没有完成这项工作。

我在哪里搞砸了?

0 投票
3 回答
108 浏览

python - 当网页有它时,是否可以使该刮板在额外的页面中起作用?

我的代码只从文件的每个 url 打开一个页面,有时会有更多页面,在这种情况下,下一页的模式将是 &page=x

这是我正在谈论的那些页面:

http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track&page=7

0 投票
1 回答
50 浏览

ruby - Xpath 内容未保存

这可能只是我还没有发现的代码中的一个愚蠢的错误,但这花了我相当长的时间:当使用 nokogiri 和 xpath 解析网站并尝试将 xpaths 的内容保存到 .csv 文件时, csv 文件有空单元格。

基本上,xpath 的内容返回空或者我的代码没有正确读取网站。

这就是我正在做的事情:

我在这里想念什么?

0 投票
2 回答
245 浏览

regex - 字符串的 perl 正则表达式

我有一个字符串,我需要从中提取 street、city、state、zip 。

字符串可能看起来像

我目前正在使用 split 函数来获取一个数组并使用这些值来完成我的工作,但我想要一个正则表达式来为我完成任务。我将不胜感激。谢谢

0 投票
0 回答
48 浏览

facebook - “检查 URL 时发生内部错误” - 是由于西里尔语域吗?

可能重复:
在西里尔文中共享 url 时出错

Facebook 调试器 sais:我们的 URL http://конкурсконцепций.рф(它位于西里尔域区域'рф',其规范 url 形式为http://xn--e1agdbaatcfdnhn0a4cc.xn --p1ai/

我想知道问题出在哪里?在西里尔域名或网站内容中还是其他?

PS 链接到调试器

0 投票
7 回答
3644 浏览

php - 通过 PHP 代码打印 Python 输出

我有一个刮刀可以刮取一个网站(用 python 编写)。在抓取网站时,打印即将用 CSV 写入的行。Scraper 是用 Python 编写的,现在我想通过 PHP 代码执行它。我的问题是

如何打印由 python 代码打印的每一行。

我使用了 exec 函数,但它对我没有用,并在执行所有程序后给出输出。所以;

是否可以在通过 PHP 执行时打印 python 输出。

0 投票
2 回答
127 浏览

ruby - 在表格单元格中获取最后一个单词?

我想用 Ruby 和 Nokogiri 从表中抓取数据。

有很多<td>元素,但我只需要一个元素后只是文本的国家<br>。问题是,<td>元素不同。有时不仅仅是国家。

例如:

我想解决结束</td>标签之前的元素,因为国家总是最后一个元素。

我怎样才能做到这一点?

0 投票
2 回答
3032 浏览

python - 漂亮的汤检查标签中的标签

我正在使用 Beautiful Soup 4 来刮一页。有一段我不想要的文字:

它的独特之处在于它有一个标签。我已经使用 findall() 来获取所有

标签。所以现在我有一个 for 循环,如:

不幸的是 bs4 没有“hasChildTag”功能

0 投票
3 回答
340 浏览

forms - Web::Scrape 与 Xpath 返回太多行

在一些讨厌的嵌套表上使用 Web::Scrape,没有 CSS 样式。必须学习 XPATH,然后被绊倒。

更新:修复了一些 XPATH 问题,现在只剩下一个关于属性的问题

现在输出

所以我越来越近了。现在如何指定<option>具有该selected属性的?

更新:已解决。Xpath 是//*[@id="cfg-surface-detail"]/center/table/tr/td[2]/select/option[@selected]

这有帮助:http ://www.w3schools.com/xpath/xpath_syntax.asp

0 投票
1 回答
587 浏览

facebook - facebook scraper 停止读取我的元数据

可能重复:
Facebook 不会分享指向我网站的链接

我有 2 个网站在粘贴到 Facebook 时无法显示图像。所以我去了 facebook 对象调试器并将刮板看到的内容与视图源看到的内容进行比较。

http://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fvspwebandvideo.com%2F

我的两个失败页面都死了:

因为它没有给出错误,所以它只是停止阅读,我不知道该尝试什么。

有任何想法吗?我想知道具有 html 实体的标题标签是否会产生影响。

paxtonsgrill.com 也失败了,但 allaroundloveland.com 有效。所有 3 个都是 wordpress 网站,但我是一名 PHP 开发人员,所以如果我能找出问题所在,我很可能会修复它。

谢谢