问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 仅 Scrapy 正文文本
我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。
希望一些学者可以在这里帮助我从<body>
标签中抓取所有文本。
csv - 使用 NodeJS 从 URL 解析/保存/获取 csv 响应
我正在尝试从 Yahoo Finance URL 获取结果:
http://finance.yahoo.com/d/quotes.csv?s=XOM=sn1yr 返回:
我正在尝试使用 Mongoose 将这些结果存储在数据库中。我有一些代码可以从现有的 CSV 文件中保存(如您所见,内容不同但相关):
我正在尝试做类似的事情:
Scraper 是一个模块,位于https://github.com/mape/node-scraper
但是使用来自 Yahoo URL 的 CSV 结果,没有将响应放入单独的 CSV 文件中,并且被告知我需要以某种方式使用 stream.write。我是 Node 的新手,希望能得到一些帮助来解决这个问题。在此先感谢您的帮助!
python - 在 python 中检测和更改网站编码
我的网站编码有问题。我制作了一个程序来抓取一个网站,但我没有成功改变阅读内容的编码。我的代码是:
我使用了外部库(BSXPath 是 BeautifulSoap 的扩展)和 document.originalEncoding 打印网站的编码,而不是我试图更改的 utf-8 编码。有人有什么建议吗?
谢谢
java - Cheap flight via Java Query and Scraping
I'm making a Java app that goes to Southwest.com and searches for a particular flight 4 times a day. If it finds a cheap flight, it e-mails the user.
I need to know how to input the data on the Southwest.com homepage (i.e. that I want a flight from JFK to SFO on 7/24/2011), so that I can scrape the HTML from the results page to deliver the lowest price.
Any help on how you would query the site in Java would be greatly appreciated.
python - XPath 匹配每个包含文本的节点
如何递归匹配所有包含文本的子节点。
如果我有一棵树
如何将表节点中的每个字符串与 xpath 匹配?像“//table/*/text()”这样的东西?
regex - Perl 屏幕从表中抓取数据
我想编写一个 Perl 脚本来获取网页的 html 内容,然后抓取表格的内容。确切的页面是:
http://djbpmstudio.com/Default.aspx?Page=album&id=1
到目前为止,我可以使用以下代码对艺术家、专辑和流派以及表中的第一个条目进行正则表达式:
在嵌套 IF 中,类在“row-a”和“row-b”之间交替。
我不确定如何从列表中获取所有歌曲名称和每首歌曲的 BPM。我还想将歌曲名和 BPM 放入一个数组中以供以后处理。
谢谢你。
python - 在 scrape.py 库中使用 submit 方法的问题
我正在使用 scrape.py 库来抓取网站。(图书馆和文档可以在这里找到http://zesty.ca/scrape/)
我希望会话按下的页面上有一个按钮,但我不明白如何使用提交功能。据我了解,我应该给它一个表单的区域对象。按钮本身是一个输入 html 元素。我尝试同时给它表单和输入,但每次都得到相同的错误。
我的代码(在谷歌应用引擎上):
或者
和错误:
excel - 使用 VBA 将网站数据流式传输到 Excel
网站通过浏览器通过 HTTPS 连接提供流式股票报价。这是通过服务器发送 POST HTTP 标头并使用新引号更新其正文来完成的。然后更新 DOM,然后将其转换为视觉更新。我想把这些报价,最好是流式传输到 Excel 中。我可能只使用 VBA、.NET 框架和 firefox 附加组件。
我被困在如何做到这一点上。我仅限于 VBA 和 .NET 以及 Firefox 附加组件。你会建议我使用哪些库、对象、Firefox 附加组件?
python - 如何使用 Python 从文本表中抓取数据?
我有以下文本,我想抓取数据项并将它们保存在 excel 中。有没有办法在 Python 中做到这一点?
现在,我只是想用 '|' 以 csv 样式格式获取它 符号分隔数据项,然后手动将数据提取到excel:
问题是我必须这样做数千次,而且要花很长时间才能遍历每个表并保存我需要的项目。有没有办法创建一个字典来记录最左边列中列出的每个人的年份、薪水、奖金、其他年度薪酬等?
scrape - 谷歌翻译API中的拼音
我想从 googletranslate API 中刮取拼音,而不是从其他网站刮取(随着时间的推移和不同的请求,它可能会以一万种方式改变其格式)。它返回的 JSON 似乎不包含罗马字母,尽管它肯定存在于某个地方,因为它显示在网页上。
我正在使用 python,但我认为这应该是一个独立于语言的问题。
建议?