问题标签 [web-scraping-language]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
45 浏览

web-scraping-language - 网页抓取语言:如何进行分页抓取?

我正在尝试运行以下 goto Flipkart,抓取所有产品链接并提取产品、价格和描述。但是,这只抓取一页,我想在所有页面上重复抓取,例如)第 1、2、3...等

0 投票
1 回答
38 浏览

web-scraping - 我正在做网络抓取,所以这个错误正在发生,请检查一下?

----> 1 desc = soup.findall("td",{"class":"views-field views-field-search-api-excerpt views-field-field-api 中的 TypeError Traceback (最近一次调用最后一次) -description hidden-xs visible-md visible-sm col-md-8"})

TypeError:“NoneType”对象不可调用

0 投票
3 回答
381 浏览

python - 如何修复代码以抓取 Zomato 网站?

我写了这段代码,但在运行最后一行后得到了错误“IndexError:list index out of range”。请问,我该如何解决这个问题?

0 投票
3 回答
326 浏览

node.js - Cheerio 网页抓取 ul > li 属性

我想从这个 url 中刮掉“数据价格”,但它回来了未定义。有任何想法吗?

https://i.stack.imgur.com/N9gei.png

0 投票
1 回答
108 浏览

python - 在 Web_Scrapping 列表返回空列表

我的期望输出:[html]

但是,在打印 case_div 时,我得到了一个空列表 []。

为什么会这样,我该如何解决?

0 投票
1 回答
358 浏览

web-scraping - 使用 requests-html python 库,我如何滚动?到页尾

问题是,我需要抓取数据,但整个数据仅在我滚动时生成。

如果我在滚动之前刮掉一些数据,而不是全部刮掉。

上面只给出了前三个的图像。

0 投票
1 回答
145 浏览

python - 使用 Beautiful Soup 在 python 中抓取网页

我一直在尝试为一个项目抓取有关房地产新物业的信息数据。

'NoneType' object has no attribute 'get_text'当我尝试从网络获取床位数量时出现错误。我能够获得其他属性,不仅是卧室。

链接:- https://www.99acres.com/search/property/buy/residential-all/ahmedab​​ad -all?search_type=QS&refSection=GNB&search_location=NRI&lstAcn=NR_R&lstAcnId=-1&src=CLUSTER&preference=S&selected_tab=1&city=45&res_com=R&property_type= R&isvoicesearch=N&keyword_suggest=Ahmedab​​ad%20(All)%3B&fullSelectedSuggestions=Ahmedab​​ad%20(All)&strEntityMap=W3sidHlwZSI6ImNpdHkifSx7IjEiOlsiQWhtZWRhYmFkIChBbGwpIiwiQ0lUWV80NSwgUFJFRkVSRU5DRV9TLCBSRVNDT01fUiJdfV0%3D&texttypedtillsuggestion=ahme&refine_results=Y&Refine_Localities=Refine%20Localities&action=%2Fdo%2Fquicksearch%2Fsearch&suggestion=CITY_45%2C%20PREFERENCE_S%2C%20RESCOM_R&searchform= 1&price_min=null&price_max=null

这是我的代码:

0 投票
1 回答
68 浏览

html - 查看 HTML 过去是如何出现的?

如果他们可以访问网站的 html 代码,我是否可以使用工具或服务来确定一年前网站的外观如何?例如,假设我今天如何保存 nba.com 的 html 代码,我可以看到这个 html 代码在一年后的今天是如何直观地出现的吗?

我问是因为不是每天抓取网站以获取信息并手动检查信息是否在同一位置,是什么阻止我抓取网站的 html 代码并追溯查看脚本并访问我需要的信息?

0 投票
2 回答
34 浏览

python - 如何从代码中的 bs4 标签元素中提取文本?使用内容功能不起作用

调用时出现以下错误text.strip()

请参阅下面的代码:

0 投票
2 回答
49 浏览

r - 如何在 url 的数据帧上循环 jsonlite 函数?

我正在尝试在我积累的一组 api url 上运行 jsonlite 函数。具体来说,我有一个名为 url_df 的数据框,它有一个名为 URL 的列,其中包含 162800 行 api url。当我编写脚本并一次手动插入每个 url 时,它工作得非常好。这是我用来一次在一个 url 上手动运行它的脚本:

但是,因为我有超过 100K 行的 api url 要通过,所以我想创建一个循环函数,将上述函数重复到列 URL 中的每一行(每个 api url),这样我就不必手动剪切和将每个 url 粘贴到脚本 100K+ 次。因此,我将此信息保存到名为“url_df”的数据框中,并尝试了以下代码:

由于某种原因,它不会运行。我得到的错误之一是: jsonlite::fromJSON(rawdata) 中的错误:找不到对象'rawdata'。

一个可能很重要的警告:每个 api url 不只返回 1 个数据点值(例如,1)。相反,它返回一个值列表(例如,星期日、1、星期二、2 等)。

关于为什么会发生这种情况或我如何克服这个问题的任何想法?

在解决了第一个问题之后,如果可能的话,我想 rbind 我收集的所有数据......

谢谢!!!