问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8775 浏览

python - 仅 Scrapy 正文文本

我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。

希望一些学者可以在这里帮助我从<body>标签中抓取所有文本。

0 投票
1 回答
4231 浏览

csv - 使用 NodeJS 从 URL 解析/保存/获取 csv 响应

我正在尝试从 Yahoo Finance URL 获取结果:

http://finance.yahoo.com/d/quotes.csv?s=XOM=sn1yr 返回:

我正在尝试使用 Mongoose 将这些结果存储在数据库中。我有一些代码可以从现有的 CSV 文件中保存(如您所见,内容不同但相关):

我正在尝试做类似的事情:

Scraper 是一个模块,位于https://github.com/mape/node-scraper

但是使用来自 Yahoo URL 的 CSV 结果,没有将响应放入单独的 CSV 文件中,并且被告知我需要以某种方式使用 stream.write。我是 Node 的新手,希望能得到一些帮助来解决这个问题。在此先感谢您的帮助!

0 投票
1 回答
522 浏览

python - 在 python 中检测和更改网站编码

我的网站编码有问题。我制作了一个程序来抓取一个网站,但我没有成功改变阅读内容的编码。我的代码是:

我使用了外部库(BSXPath 是 BeautifulSoap 的扩展)和 document.originalEncoding 打印网站的编码,而不是我试图更改的 utf-8 编码。有人有什么建议吗?

谢谢

0 投票
2 回答
596 浏览

java - Cheap flight via Java Query and Scraping

I'm making a Java app that goes to Southwest.com and searches for a particular flight 4 times a day. If it finds a cheap flight, it e-mails the user.

I need to know how to input the data on the Southwest.com homepage (i.e. that I want a flight from JFK to SFO on 7/24/2011), so that I can scrape the HTML from the results page to deliver the lowest price.

Any help on how you would query the site in Java would be greatly appreciated.

0 投票
2 回答
1219 浏览

python - XPath 匹配每个包含文本的节点

如何递归匹配所有包含文本的子节点。

如果我有一棵树

如何将表节点中的每个字符串与 xpath 匹配?像“//table/*/text()”这样的东西?

0 投票
2 回答
1529 浏览

regex - Perl 屏幕从表中抓取数据

我想编写一个 Perl 脚本来获取网页的 html 内容,然后抓取表格的内容。确切的页面是:

http://djbpmstudio.com/Default.aspx?Page=album&id=1

到目前为止,我可以使用以下代码对艺术家、专辑和流派以及表中的第一个条目进行正则表达式:

在嵌套 IF 中,类在“row-a”和“row-b”之间交替。

我不确定如何从列表中获取所有歌曲名称和每首歌曲的 BPM。我还想将歌曲名和 BPM 放入一个数组中以供以后处理。

谢谢你。

0 投票
2 回答
330 浏览

python - 在 scrape.py 库中使用 submit 方法的问题

我正在使用 scrape.py 库来抓取网站。(图书馆和文档可以在这里找到http://zesty.ca/scrape/

我希望会话按下的页面上有一个按钮,但我不明白如何使用提交功能。据我了解,我应该给它一个表单的区域对象。按钮本身是一个输入 html 元素。我尝试同时给它表单和输入,但每次都得到相同的错误。

我的代码(在谷歌应用引擎上):

或者

和错误:

0 投票
1 回答
4924 浏览

excel - 使用 VBA 将网站数据流式传输到 Excel

网站通过浏览器通过 HTTPS 连接提供流式股票报价。这是通过服务器发送 POST HTTP 标头并使用新引号更新其正文来完成的。然后更新 DOM,然后将其转换为视觉更新。我想把这些报价,最好是流式传输到 Excel 中。我可能只使用 VBA、.NET 框架和 firefox 附加组件。

我被困在如何做到这一点上。我仅限于 VBA 和 .NET 以及 Firefox 附加组件。你会建议我使用哪些库、对象、Firefox 附加组件?

0 投票
3 回答
1993 浏览

python - 如何使用 Python 从文本表中抓取数据?

我有以下文本,我想抓取数据项并将它们保存在 excel 中。有没有办法在 Python 中做到这一点?

现在,我只是想用 '|' 以 csv 样式格式获取它 符号分隔数据项,然后手动将数据提取到excel:

问题是我必须这样做数千次,而且要花很长时间才能遍历每个表并保存我需要的项目。有没有办法创建一个字典来记录最左边列中列出的每个人的年份、薪水、奖金、其他年度薪酬等?

0 投票
0 回答
1835 浏览

scrape - 谷歌翻译API中的拼音

我想从 googletranslate API 中刮取拼音,而不是从其他网站刮取(随着时间的推移和不同的请求,它可能会以一万种方式改变其格式)。它返回的 JSON 似乎不包含罗马字母,尽管它肯定存在于某个地方,因为它显示在网页上。

我正在使用 python,但我认为这应该是一个独立于语言的问题。

建议?