您无需登录即可通过高级搜索访问和抓取 Twitter:
获取请求
执行基本搜索请求时,您会得到:
https://twitter.com/search?q=Babylon%205&src=typd
- q(我们的查询编码)
- src(假设是查询的来源,即键入)
默认情况下,Twitter 返回前 25 条结果,但如果你点击
all
你可以获得实时推文:
https://twitter.com/search?f=realtime&q=Babylon%205&src=typd
JSON 内容
更多推文通过 AJAX 加载到页面上:
https://twitter.com/i/search/timeline?f=realtime&q=Babylon%205&src=typd&include_available_features=1&include_entities=1&last_note_ts=85&max_position=TWEET-553069642609344512-553159310448918528-BD1UO2FFu9QAAAAAAAAETAAAAAcAAAASAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
用于max_position
请求下一条推文
以下 json 数组返回抓取内容所需的所有内容:
https://twitter.com/i/search/timeline?f=realtime&q=Babylon%205&src=typd
- has_more_items (bool)
- items_html (html)
- 最大位置(键)
- refresh_cursor(键)
DOM 元素
这里有一个DOM elements
你可以用来提取的列表
作者推特句柄
div.original-tweet[data-tweet-id]
作者姓名
div.original-tweet[data-name]
作者的用户ID
div.original-tweet[data-user-id]
帖子的时间戳
span._timestamp[data-time]
帖子的时间戳,以毫秒为单位
span._timestamp[data-time-ms]
推文文本
p.tweet-text
转推数
span.ProfileTweet-action–retweet > span.ProfileTweet-actionCount[data-tweet-stat-count]
收藏数量
span.ProfileTweet-action–favorite > span.ProfileTweet-actionCount[data-tweet-stat-count]
资源