问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1018 浏览

web-scraping - 维基百科文章名称(无内容)

我正在做一个项目,为此我需要知道所有维基百科的文章名称(我不需要内容)。有没有可以下载这些数据的地方。

0 投票
2 回答
743 浏览

asp.net - Yahoo Web Scraps:有什么限制?

我们正在使用网络抓取工具,并将其设置为具有随机功能设置的睡眠功能(因此每次抓取之间的时间不同)但在 20-30 次请求后我们仍然被雅虎阻止.

有谁知道是否有限制(即:每分钟 20 个请求,每小时 200 个) 现在我们每个请求之间的平均时间约为 3-6 秒。谢谢你的帮助

0 投票
1 回答
142 浏览

python - 用于网络抓取的名称来源

任何人都可以提出一个好的名称来源,我可以用来帮助分析网页上的一些表格。

我正在抓取的表格的第一列只有名称,名称和标题或只是标题。

名字可以从约翰史密斯到维克拉姆萨克塞纳多种多样。
我一直在寻找可以在专有名称中找到的单词的编译列表。

已编辑我已经尝试过人口普查中设置的名称,其中有很多垃圾,不值得使用。

0 投票
1 回答
601 浏览

python - 以编程方式对黑客新闻故事进行投票?

我决定编写一个应用程序,如: http: //michaelgrinich.com/hackernews/但对于 Android 设备,我的想法将使用 Web 应用程序后端(因为我宁愿在 Python 和 Web 中编写代码,而不是在 Android 设备上完全使用 Java) .

我现在实现的是这样的:

下一步(我认为也是最后一步)是投票,我的设计是这样的:

将投票并:

投反对票。

我不知道该怎么做......我打算使用斜纹但登录链接总是不同的,例如:

稍后,Android 应用程序将使用此 API。

有以编程方式浏览 Hacker News 的经验吗?

0 投票
1 回答
3810 浏览

vb.net - 使用 HttpWebRequest 和 Get 方法的 PHP 连接

我有一个脚本返回一个字符串:

PHP 脚本:

我想将此脚本与 VB 连接,使用此代码

它不工作。我怎样才能做到这一点?

编辑:我找到了解决方案

这里

0 投票
1 回答
1309 浏览

asp.net - 使用 Python 抓取 *.aspx 内容

我在 ASPX 中抓取动态生成的表时遇到了困难。试图从像GasPrices这样的网站上刮取汽油价格。我可以提取 gas price 表中的所有信息(地址、提交时间等),但实际 gas 价格除外。

有什么办法可以刮掉汽油价格吗?即以某种方式获得它的文本表示。我对 ASP/ASPX 不是很熟悉——但是现在生成的内容并没有出现在最终的 HTML 中。我正在使用 Python 进行抓取,但这无关紧要,除非有特定的库......

提前致谢。

0 投票
4 回答
4746 浏览

php - 从 html 文档、php cURL、php、preg_match 中提取特定部分

我正在尝试使用 php cURL+preg_match 或任何其他函数从网页中提取一些信息,但由于某些原因它根本不起作用。例如,从这个页面中,我想提取标题为“4bed house to rent, Caroline Place, Bayswater, W2”,价格为“2,300”,描述以“This wonderful...”开头,并且结束于“(环线和地区线)。”。我尝试使用 php cURL + dom 但我收到很多错误,例如“htmlParseEntityRef:期待';' 在实体中,行:243" 并且没有显示结果

我也尝试使用 preg_match 或 preg_match_all 但也不起作用。

一个非常基本的例子将不胜感激!

0 投票
2 回答
751 浏览

python - 使用终端下载所有 ctrl alt del 网络漫画

我尝试使用以下命令下载 ctrl alt del 漫画。

我收到以下错误代码,bash: syntax error near unexpected token 'do'

我也尝试过使用 cURL,使用这个命令,

我收到以下错误代码,curl: (3) [globbing] error: bad range specification after pos 37

出了什么问题,我该如何解决?

0 投票
1 回答
632 浏览

facebook - Facebook粉丝页面照片的抓取

我们想在我们的粉丝页面中添加一个 facebook 粉丝页面照片比赛。意思是ppl可以上传照片,其他人可以喜欢。在他的照片上获得最多赞的人将赢得奖金。

现在我想知道是否有人知道如何在给定时刻获取所有照片的快照的好主意。因此,当我们想要停止比赛时,我们可以了解所有人的点赞数。

一些好的网站抓取工具?也许一个有用的 Facebook 应用程序?其他一些选择?

问候,大安

0 投票
3 回答
170 浏览

php - 细胞分钟跟踪器如何工作?

Cell Minute Tracker 如何获取 AT&T 用户数据一直是个谜。也许这里有人期待已久的答案。

我真的很好奇,而是他们得到了一个确认来抓取用户的蜂窝报告以及他们如何能够在不被禁止的情况下向 AT&T 网站发起多个请求?

我在等一个能解开这个谜团的人

谢谢

链接:http ://www.uquery.com/apps/311637771-cell-minute-tracker-for-att