我们正在尝试创建一个引用系统,外部网络发布者可以在其中将一些 html 放在他们网站上的页面上,该页面链接回我们网站上的特定产品页面。就这个问题而言,我们称其为“徽章”。
一旦他们插入了徽章,我们想要识别它,然后抓住 <h1> 和第一个 <p> 作为预告片,以包含从我们网站到他们的网站的链接,并将所有这些内容写入我们的数据库。然后,我们的用户可以看到他们页面的标题和第一位,然后决定是否要查看更多内容。
这是我们所做的(恐怕不多):
<a href="http://www.mysite.com/abc.html">
<img alt="abc" src="http://www.mysite.com/logo.gif" style="width:200px;height:100px" />
</a>
我们计划构建一个管理页面来完成最后一部分的抓取 <h1> 和 <p> 并将其发布到实时数据库等,我们稍后会解决这个问题。
但是,中间的步骤(识别出这段html已经被使用过)我们就不知所措了。
这是我们应该通过日志文件做的事情吗……我什至不知道如何开始考虑它。
从哪里开始解决这个问题的一点方向会非常有帮助。
提前致谢!!