我有一个自托管的 wordpress 博客,正如几乎预期的那样,我发现有另一个博客在抓取我的内容,发布了我自己帖子的完美副本(文本、图像不是热链接但被提取并重新上传到克隆的服务器、html 布局内帖子)有几个小时的延迟。
但是我必须承认,当我在谷歌搜索与我的帖子相关的关键字时,我很生气,抓取克隆总是排在第一位。
所以,我在这里,欢迎建议,你知道如何防止我的网站被成功抓取吗?
技术精度:
- 克隆博客似乎是自托管的,我也是,我在 debian+webmin+virtualmin dedi
- 我的 RSS 提要已经被“阅读更多”中途切断了。嘿,我只是想我应该发布一个帖子,同时给它分配一个日期,比如 2001-01-01,看看它是否出现在克隆博客上,这样可以知道我的 RSS 是否仍然被用作“嘿,现在是刮痧时间!”
- 我的日志在合法流量中找不到刮板,要么无法识别,要么在合法流量的洪流中丢失
- 我已经 htaccess-banned 和 iptables-banned 克隆的 .com 域,但我的内容仍然被克隆
- 克隆网站使用反向代理,所以我无法追踪它的托管位置以及应该阻止哪些实际 IP(好吧,除非我 iptables-ignore-ban 一半欧洲禁止其数据存储设施的整个 IP 范围,但我有点不情愿!)
- 我相信这不是手工制作的,克隆已经运行了两年,每天都没有失败
- 只有我的新帖子被克隆,而不是我网站的其余部分(不是侧边栏,不是 wordpress 页面,而不是 wordpress 帖子,不是单个页面),所以设置一个 jail.html 来记录谁打开它页面不会工作,没有蜜罐
- 当我的帖子包含指向我网站另一个页面的内部链接时,克隆上的帖子不会被重写,仍然会指向我自己的网站
我很乐意为这个问题提供帮助和建议。没有被克隆,而是在我是原始发布者时失去了该机器人的流量。