Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在整理一个论坛统计网站,我需要在几个论坛上查找活跃会员的数量。
许多人列出了“总成员”,但这对我没有帮助。
我认为“活跃”是在过去几个月内至少发布 5 次的人。
我真的很困惑如何做到这一点。有什么建议么?
如果您无权访问数据库,则抓取 html 页面、跟踪链接以及从 HTML 本身确定发布日期和发布用户似乎是 gp 的唯一方法。(HTTPRequest或cURL用于获取,结合DOMDocument/DOMXpath用于可靠的 HTML 解析和查找显式节点),将其存储在您自己的数据库中。总而言之,取决于论坛的确切 HTML 布局,并不完全复杂,但需要大量工作,并且可能需要一次又一次地重复每个不同论坛的微小变化。
HTTPRequest
cURL
DOMDocument
DOMXpath
如果论坛有 RSS 提要或其他获取更多结构化内容/数据的方法,则所需的工作量可能会大大减少。