-2

假设我有一个包含许多博客文章的 WordPress 网站。我发现有人在那里复制我网站每个页面的内容并将其粘贴到他自己的网站上。我相信他不会手动操作,因为金额很大。我尝试复制他所做的事情,我发现实际上我很容易通过 curl 和一些 Dom Parsing 使用 php 来做同样的事情(让我知道有用文本所在的类名)。

我有什么方法可以防止它,或者至少让他们将来更难做到这一点?谢谢!

4

3 回答 3

1

请记住,您向网站查看者公开的任何信息始终以编程方式检索。所有 Web 浏览器都连接到 Web 服务器并使用 HTTP 请求信息。

您可以尝试阻止他正在使用的任何软件的用户代理(如果它提供了用户代理),但这很可能是徒劳的。您的博客文章向公众公开,因为您打算让他们阅读它们。一旦此信息在客户端,您将无法进一步控制它。

于 2015-09-09T05:26:05.570 回答
1

由于浏览器只是下载您的内容以将其显示给用户的机器,因此您实际上无法完全阻止它。

您可以采取一些措施使其变得更加困难,但它们也会增加您的普通读者遇到问题的风险。

以下是我过去看到的一些想法:

  1. 图片:不适合完整的文章,但仍然流行于电子邮件地址之类的内容:不要放文字,而是文字的一些图像。

  2. 发布一些加扰的版本,然后用 javascript 解扰。如果有人使用 curl 或类似方式提取内容,他将不会执行 javascript 并且只会得到垃圾。

  3. 变异图像:通常那些复制猫从原始来源获取图像和其他媒体。您可以在您的服务器上使用引荐来源网址来提供不同的图像,例如带有“此内容被盗取自...”消息的图像

  4. 聘请律师起诉他们。可能会很困难,尤其是在涉及国际法时,但我已经看到它成功地完成了。

于 2015-09-09T05:29:37.603 回答
0

如果废弃您网站的人没有通过 cURL 进行太多配置,那么您可以使用一些用户代理字符串解析来检测 cURL 用户并抛出 404 或执行您想做的任何其他类型的处理。(更多信息:http ://www.useragentstring.com/pages/curl/ )

但是请记住,cURL 允许您制作请求并允许您欺骗您的用户代理和 Web 请求的大多数其他详细信息,使其与常规 Web 流量无法区分。

除此之外,您可以阻止特定人员的 IP 地址,但这是一个非常具体的修复,并不能解决任何人报废内容的更广泛的担忧。

于 2015-09-09T05:28:15.053 回答