Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想获取 website 中可用的所有链接(网络帖子)。而且,如果将任何新帖子添加到网站上,我应该能够获得链接。我将列出 10 个网站,并且需要定期运行链接提取过程。
有人可以帮助我如何仅获取帖子链接和添加的新帖子链接。
我建议编写一个 cron-job 定期调用的 php 脚本(因为您提到了 php)。在脚本里面你可以
选项 1:定义一个curl自动获取一个 url 的所有内容的突击队。(如果您必须使用 post 方法向网站传递一些信息,可能会更好。)
curl
选项2:使用file_get_contents函数获取所有内容
file_get_contents
您可以使用正则表达式解析这些结果以提取您感兴趣的部分(例如搜索类似的内容<div class=".post">...</div>)。之后,您可以将信息添加到数据库中,或者只是检查信息是否已经存在。
<div class=".post">...</div>