我正在写一篇关于服务排名算法的研究,我想通过在公共数据上运行它来证明它的性能和准确性。比方说苹果商店数据、谷歌播放、expedia 等。我可以从 HTML 中解析他们的数据并在我的研究中使用它吗?或者我会执行非法行为(网络抓取)?
我应该在我的研究中明确提到数据仅用于科学原因吗?
我读过关于网络抓取和关于其非法性的争议,但我没有找到任何关于它是否仅用于科学目的的文章。
提前致谢
我正在写一篇关于服务排名算法的研究,我想通过在公共数据上运行它来证明它的性能和准确性。比方说苹果商店数据、谷歌播放、expedia 等。我可以从 HTML 中解析他们的数据并在我的研究中使用它吗?或者我会执行非法行为(网络抓取)?
我应该在我的研究中明确提到数据仅用于科学原因吗?
我读过关于网络抓取和关于其非法性的争议,但我没有找到任何关于它是否仅用于科学目的的文章。
提前致谢
网络抓取网站本身并不违法。
但是,我建议您注意特定网站的“使用条款”,看看它是否是他们明确禁止的。例如,此处的 Expedia 使用条款http://www.expedia.ie/p/support/termsofuse概述:
您不得通过自动方式访问或提供网站或网站网页的任何部分,例如使用爬虫或商店机器人系统地检索或复制信息或通过链接将网站内容功能性地连接到另一个网站
*话虽如此,只要您不在网站上施加不合理的负载,或将其内容重新发布为您自己的内容,我不认为您会遇到任何问题。