问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python + 机械化异步任务
所以我有一段 Python 代码,它在一个美味的页面中运行,并从中删除了一些链接。extract 方法包含一些提取所需内容的魔法。但是,一个接一个地运行页面获取速度非常慢 - 有没有办法在 python 中执行此异步操作,以便我可以启动多个获取请求并并行处理页面?
php - PHP DOMDocument 错误处理
我在尝试if
为 DOM 编写一个检查是否$html
为空白的语句时遇到了麻烦。但是,每当 HTML 页面最终变为空白时,它只会删除 DOM 下方的所有内容(包括我必须检查它是否为空白的内容)。
所有这一切都是在指定的 div 中获取一个图像 URL,它可以完美地工作,直到页面是一个空白的 HTML 页面。
我试过使用 SimpleHTMLDOM,它也不起作用(它甚至没有在工作页面上获取图像)。我是碰巧错过了这个,还是我只是错过了两者?
php - 从 Facebook 活动提要中提取链接
我正在尝试从 facebook 活动提要中获取链接,我尝试从 iframe 中提取 HTML,但是由于跨域,这不起作用。然后我尝试了 cURL,但由于 javascript 不起作用。
http://developers.facebook.com/docs/reference/plugins/activity
有任何想法吗?
php - How to add data off HTML page into MySQL DB
How can I add data from a HTML page, into a MySQL Database based on the attributes?
It's already scraped data, but I would like to import links into a particular field in a table and remove some things from them (ill work that out) and another from into another field in a table.
I have PHP/MySQL and Linux. Should I use curl, and if so how do I actually add data into a MySQL DB?
c# - HTML Agility Pack - 只能从文件系统加载 xml 文档,不能从 Web 加载
我之前已经成功使用过 HAP,从 web 下载 xhtml 页面。但是,现在我正在尝试加载和解析 xml 文档。HAP 只会加载位于我的文件系统上的 xml 文档,例如“C:\xml\MyXml.xml”。它不会从网络 (http://www.web.com/doc.xml) 加载它。使用 Fiddler,我可以看到 HAP 实际上是通过 web 请求 xml 文档,服务器也响应 xml 文档。但是,它停在那里,没有任何东西被解析。HtmlDocument 是空的,没有 ChildNodes 或任何东西。从文件系统加载时,它会成功解析为 HtmlDocument。
有任何想法吗?
search - 通过我的浏览器从 Google 获取 URL 的最简单方法是什么?
我想在通过 Google 搜索内容时抓取我的搜索返回的所有 URL。我试过制作一个脚本,但谷歌不喜欢它,添加 cookie 支持和验证码太乏味了。我正在寻找一些东西——当我浏览谷歌搜索页面时——将简单地获取页面上的所有 URL 并将它们放入 .txt 文件中或以某种方式存储它们。你们中有人知道会这样做吗?也许是一个greasemonkey 脚本或firefox 插件?将不胜感激。谢谢!
php - 使用 PHP 从搜索查询中抓取数据
我正在使用 PHP,它也是一个完整的菜鸟。
所以我有这个 URL,它接受查询并返回一个带有一些匹配项的数据文件。
说 www.example.com/search?q=$query 其中 $query 是任何搜索词。
但是,当您在浏览器中访问 URL 时,它会下载一个包含信息的文本文件。
我想遍历整个字母表和最多 10 个字母的每个字母组合,并从所有返回的文件中提取数据并将其存储在数据库中。
我不确定如何从 PHP 脚本打开每个 URL。有没有比下载每个文件并提取信息然后删除文件更好的方法?
我下面的内容根本不起作用。
analytics - 从 Referrer Header 特征确定流量来源
我正在编写一个 Web 应用程序,它将跟踪网站的传入流量并跟踪流量的来源及其在我们网站上的行为,以便我们了解营销活动的投资回报、实际关键字和它们对我们(而不是对谷歌)的价值以及损失的流量,以及我们损失的支出。
其中一部分涉及在访问的第一页上从浏览器中查看引荐来源信息。像谷歌有机和谷歌付费搜索这样的推荐人很容易识别,使用正则表达式匹配来查找推荐人中的特定字符串(我使用的是 php 的 $_SERVER)。Bing、Ask、Yahoo、LinkedIn 和 Facebook 也是如此。
但是,我遇到了一个特定来源的问题 - Google 内容联盟网络。有时来自这些广告的流量有一个很好的链接开始http://googleads.g.doubleclick.net/pagead/ads?
,这显然很容易编码。另一方面,来自展示我们广告的网站的流量有时来自网站本身的推荐人,就好像它是一个硬编码链接一样。第二个硬编码类型的链接会导致问题,因为我们无法将其与常规引用流量区分开来。
所以,除了用'?source=gcn'之类的东西标记我们的广告指向的网址,或者抓取引用页面以寻找硬编码链接或谷歌广告iframe之外,有没有人有任何神奇的方法来克服这个问题?
提前致谢
罗斯
c# - 如何在需要登录的情况下抓取网站 - example.com
我尝试使用 .net(Webclient、webrequest、response 等)筛选网站。我尝试了很多方法,但似乎没有任何效果。
我总是收到“请登录以查看此内容!” 网站而不是完整的拍卖信息:http ://www.example.com/en/auctions/auto-details/107891/
我正在使用 post 方法发送登录数据
请帮忙
python - 从 HTML 标头中抓取值并在 Python 中保存为 CSV 文件
全部,
我刚开始使用 Python (v 2.7.1),我的第一个程序之一是尝试使用标准库和 BeautifulSoup 从包含发电站数据的网站中抓取信息来处理 HTML 元素。
我想访问的数据可以在 HTML 的“头部”部分中获得,也可以作为主体中的表格获得。如果单击 CSV 链接,该网站将根据其数据生成一个 CSV 文件。
使用这个网站上的几个来源,我设法拼凑了下面的代码,它将提取数据并将其保存到文件中,但是它包含 \n 指示符。尽我所能,我无法获得正确的 CSV 文件来保存。
我相信这很简单,但如果可能的话需要一些帮助!