1

我是 PHP 新手,正在尝试开发一个系统来捕捉那些试图将垃圾邮件站点输入到社交网站的人。(例如在 pinterest、博客网站等中的评论或帖子。)

以下是我正在使用的方法:当用户在帖子/评论字段中输入文本时,我将浏览所有文本并提取其中的所有 URL。然后:

  1. 将网页的标题与该网页的正文进行比较,以查看正文中包含多少标题字段中的单词。然后给它一个排名。
  2. 将元标记与网页正文进行比较,并查看元标记是否包含在网页正文中。然后给它一个排名。
  3. 将锚文本与该网页的正文进行比较
  4. 将 URL 中的关键字与网页正文进行比较
  5. 检查网页是否包含任何色情文字。
  6. 通过将 URL 与在线数据库进行比较来检查列入黑名单的站点。

您能否告诉我是否有任何其他方法可以用来确定给定 URL 的用户是垃圾邮件还是营销网站?任何帮助将不胜感激。

4

1 回答 1

2

这个问题实际上似乎并不是特定于 php 的。但不管怎么说...

这是一个类似的帖子,有一些想法

检测文本字符串中的(淘气或漂亮)URL 或链接

此外,关于该主题的科学论文可能值得一看。这是一个可以帮助您入门的方法。

http://dl.acm.org/citation.cfm?id=2093493&dl=ACM&coll=DL&CFID=337935760&CFTOKEN=13189143

于 2013-06-11T06:03:09.967 回答