网站常见的应对策略是放置Robots协议,该协议由荷兰工程师傅马丁·科斯特(Martijn Koster )在1994年编写,后来成为数据爬取方和被爬取方之间通行的沟通机制。中国互联网协会2012年发布的《中国互联网行业自律公约》中,将遵守Robots协议认定为“国际通行的行业管理与商业规则”。
 
    但刘煜称,Robots协议更像君子协议,只能起到告示作用,起不到防范作用。爬虫技术、反爬虫技术、反反爬虫技术一直在迭代,只要网站、App能够被用户访问,就存在被爬取的可能。
  恶劣的爬虫手段会造成社会资源和技术资源的浪费,这些资源都来之不易。小红书总法律顾问曾翔表示,有的爬虫会通过“模拟真人访问”或者“通过协议破解”来爬取数据。“这些都是不光彩的手段,被爬取得的网站不得不采取攻防措施,造成不少企业资源的浪费。”
 
  曾翔说,对内容平台而言,遭遇爬虫攻击极易对于自身以及用户享有的知识产权造成侵害。通常爬取都是有目的的,如果爬取到核心商业机密,可直接用到其他地方形成竞争优势。另外,在他看来,爬虫还涉及到对于互联网公共秩序的破坏。“爬取的数据能否有效利用,是否被置于监管之下,这些数据流向何方,都是非常大的问号。”

dawei

【声明】:郑州站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。