问题标签 [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何提取一些锚标签之间的文本?
我需要从 HTML 页面中提取艺术家的姓名。这是页面的一个片段:
我已经尝试过了,但没有完成这项工作。
我在哪里搞砸了?
python - 当网页有它时,是否可以使该刮板在额外的页面中起作用?
我的代码只从文件的每个 url 打开一个页面,有时会有更多页面,在这种情况下,下一页的模式将是 &page=x
这是我正在谈论的那些页面:
http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track&page=7
ruby - Xpath 内容未保存
这可能只是我还没有发现的代码中的一个愚蠢的错误,但这花了我相当长的时间:当使用 nokogiri 和 xpath 解析网站并尝试将 xpaths 的内容保存到 .csv 文件时, csv 文件有空单元格。
基本上,xpath 的内容返回空或者我的代码没有正确读取网站。
这就是我正在做的事情:
我在这里想念什么?
regex - 字符串的 perl 正则表达式
我有一个字符串,我需要从中提取 street、city、state、zip 。
字符串可能看起来像
我目前正在使用 split 函数来获取一个数组并使用这些值来完成我的工作,但我想要一个正则表达式来为我完成任务。我将不胜感激。谢谢
facebook - “检查 URL 时发生内部错误” - 是由于西里尔语域吗?
可能重复:
在西里尔文中共享 url 时出错
Facebook 调试器 sais:我们的 URL http://конкурсконцепций.рф(它位于西里尔域区域'рф',其规范 url 形式为http://xn--e1agdbaatcfdnhn0a4cc.xn --p1ai/。
我想知道问题出在哪里?在西里尔域名或网站内容中还是其他?
PS 链接到调试器
php - 通过 PHP 代码打印 Python 输出
我有一个刮刀可以刮取一个网站(用 python 编写)。在抓取网站时,打印即将用 CSV 写入的行。Scraper 是用 Python 编写的,现在我想通过 PHP 代码执行它。我的问题是
如何打印由 python 代码打印的每一行。
我使用了 exec 函数,但它对我没有用,并在执行所有程序后给出输出。所以;
是否可以在通过 PHP 执行时打印 python 输出。
ruby - 在表格单元格中获取最后一个单词?
我想用 Ruby 和 Nokogiri 从表中抓取数据。
有很多<td>
元素,但我只需要一个元素后只是文本的国家<br>
。问题是,<td>
元素不同。有时不仅仅是国家。
例如:
我想解决结束</td>
标签之前的元素,因为国家总是最后一个元素。
我怎样才能做到这一点?
python - 漂亮的汤检查标签中的标签
我正在使用 Beautiful Soup 4 来刮一页。有一段我不想要的文字:
它的独特之处在于它有一个标签。我已经使用 findall() 来获取所有
标签。所以现在我有一个 for 循环,如:
不幸的是 bs4 没有“hasChildTag”功能
forms - Web::Scrape 与 Xpath 返回太多行
在一些讨厌的嵌套表上使用 Web::Scrape,没有 CSS 样式。必须学习 XPATH,然后被绊倒。
更新:修复了一些 XPATH 问题,现在只剩下一个关于属性的问题
现在输出:
所以我越来越近了。现在如何指定<option>
具有该selected
属性的?
更新:已解决。Xpath 是//*[@id="cfg-surface-detail"]/center/table/tr/td[2]/select/option[@selected]
facebook - facebook scraper 停止读取我的元数据
可能重复:
Facebook 不会分享指向我网站的链接
我有 2 个网站在粘贴到 Facebook 时无法显示图像。所以我去了 facebook 对象调试器并将刮板看到的内容与视图源看到的内容进行比较。
http://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fvspwebandvideo.com%2F
我的两个失败页面都死了:
因为它没有给出错误,所以它只是停止阅读,我不知道该尝试什么。
有任何想法吗?我想知道具有 html 实体的标题标签是否会产生影响。
paxtonsgrill.com 也失败了,但 allaroundloveland.com 有效。所有 3 个都是 wordpress 网站,但我是一名 PHP 开发人员,所以如果我能找出问题所在,我很可能会修复它。
谢谢