数据再使用背景下的数据竞争界限

2020-03-04 14:59 来源:光明网
浏览量: 收藏:0 分享

  数据的聚积、生产、流动、再使用是大数据产业的基本环节。广大用户产生数据,在先的数据企业搜集、整理、通过特定的算法呈现数据,这些数据可能又会成为新的数据企业所需要的数据来源。数据的流动和再使用直接涉及到三方主体:数据源(用户),在先的数据企业,数据再使用企业。

  不可否认的是,在先的数据企业为数据的搜集、整理和呈现付出了成本,其利益获得保护的诉求有一定合理性;但另一方面,在大的数字经济背景下,促进信息流动、允许数据共享,也是丰富和发展数据市场和数据产业所需要的。那么,对于数据再使用企业而言,可以用什么样的手段,通过什么样的程序,才能从在先的数据企业那里获得什么样的数据?目前来看,这样的界限仍在发展之中,并不十分明晰。

  数据再使用企业获得数据原料,可以获得数据生产者——用户——的同意, 让用户自行将自己的文章、评论等数据转发到再使用企业的平台或者空间。这样的做法安全,但对用户而言并不便利,也无法让数据再使用企业迅速获得大量数据和信息,成本较高。更为常见的做法是通过爬虫对数据进行批量爬取。这样的作法效率高、成本低,但对于被爬取数据的在先企业而言,则面临着具有商业价值的数据流失、企业流量受阻、客户隐私泄露等危险。单纯从被爬取数据的在先企业的角度而言,他们并不希望自己的数据被他人批量爬取。但是,互联网产业的基本构架特征是互联互通,信息共享,数据流动,如果过于严格地限制数据再使用企业爬取数据,则同互联网的基本理念以及大数据时代的基本要求相悖,亦会抑制数据行业的发展。

  那么,怎样才能在可获取数据和不可获取的数据之间划出一条合理的界限呢?数据再使用企业从在先的数据企业那里获得数据,是否既需要用户的同意,也需要获得在先企业的明确授权呢? 当下关于数据竞争的纠纷,往往产生于在先数据企业和数据再使用企业之间,但事实上,其所涉及的利益却远远不止于二者之间。本文尝试从以下几个方面来进行分析:

  在先企业的声明:Robots 协议

  所谓的网络爬虫,或者也称作网络机器人(Web Robots网络游客、爬虫程序、蜘蛛程序),是自动爬行网络的程序。互联网企业利用网络爬虫根据特定的算法标准扫描网页内容、自动、批量爬取符合标准的信息。大数据企业为了获得有用的数据,通过网络爬虫从其企业展现出来的信息中批量下载、采集自己所需要的数据,并最终通过自己的算法进行加工,形成新的数据产品再次展现给用户。而爬虫协议,也就是Robots协议,是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。

  为了防止大数据再使用企业损害自己的利益,防止关键性数据被爬取,很多企业采用Robots 协议来向爬取者指示哪些数据可以被爬取,哪些不可被爬取。当数据再使用企业的爬虫进入到特定网站或者平台时,会首先阅读该企业的爬虫协议。但爬虫协议本身不具备技术方面的阻碍特征,也就是说,其本身不能构成一道技术性的大门将爬虫关闭在不可爬取的数据领域之外,也不是一个真正意义上的双方意思表示的“协议”,而只是一个单方意思表示的说明。

  根据2012年的《互联网搜索引擎自律服务公约》(以下简称《自律公约》)第七条的规定,互联网服务提供者应当遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。第八条还规定:“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”这意味着,互联网企业的哪些数据或者信息可以被爬虫爬取,企业自身设置的Robots协议(或者声明)不是绝对的界限,还需要进一步考察该协议是否遵循了“公平、开放和促进信息自由流动”的互联网原则,是否公平合理,是否防止了正当的竞争,是否有利于良性竞争环境。

  因此,Robots协议不是一个终极、绝对有效的标准。当爬取者没有按照在先企业的声明去抓取信息时,现实中的纠纷还是要参考《自律公约》的基本原则,根据《反不正当竞争法》第二条去判断抓取行为是否符合诚实信用和公认的商业道德,是否构成不正当的竞争。

  在先企业的授权

  判断数据获取界线的另一个重要标准是在先的授权。一个重要的案例是2016年的新浪诉脉脉反不正当竞争案,该案被认为树立了一个数据获取界线的重要标准——“三重授权”原则,即“用户授权”+“平台授权”+“用户授权”。但是,这样的“三重授权”原则只是一个非常粗略的框架,授权的具体含义、适用的具体场景,仍然需要进一步加以类型化和细节化。

  可以和该案形成对比的另一个案件是美国的hiQ诉领英(LinkedIn)案。新浪诉脉脉案中所涉及的新浪微博用户信息,尤其是其中的非公开的用户信息部分,是需要根据open API权限规则向新浪申请接口才能获取的。这样的访问场景和数据内容显然与hiQ诉领英案不同。后者涉及的主要问题是,hiQ是否可以在公开的场域批量抓取领英公开的用户信息进行数据加工。在hiQ诉领英一案中,初审法院和再审法院都更为全面地总结了互联网和大数据背景下的授权问题。

  hiQ使用机器人领英用户公开个人资料中抓取信息并通过自己的算法形成新数字产品“人员分析”,并将其出售给业务客户。2017年5月,领英向hiQ发出了终止通知函,要求后者停止非授权性数据抓取,禁止hiQ继续获取领英用户的公开信息。领英表示,如果没有经过其授权,hiQ将会构成“未经许可,擅自进入”, 从而违反《计算机欺诈和滥用法案》(Computer Fraud and Abuse Act,以下简称CFAA)等法律的规定。

  这里所涉及的一个重要问题就是“授权”,即hiQ在收到LinkedIn的终止通知函之后,仍然进一步抓取并使用LinkedIn的数据是否构成非法的“未经授权”。法院指出,在不同的情形和法律用语之下,“授权”的含义是不同的。法院根据CFAA等法律规定和先例总结了在不同访问对象和情形下,“授权”的不同含义:

  当访问对象是未经授权就无法访问的计算机信息时,“授权”要求正式的许可。颁布CFAA的目的是为了防止故意入侵他人的计算机,特别是计算机黑客强行进入原本无法访问的计算机的行为。法院指出,1984年CFAA最初颁布时,尚没有任何计算机能够连接到公众领域,因此假定进入计算机需要某种肯定的授权。到了1996年该法修正时,其主要的目的是“加强保护隐私”。其中,对未经授权的访问的禁止被理解为仅适用于私人信息,这种私人信息的获取需要某种身份验证要求,如密码,才能创建必要的屏障,从而将网络上的开放空间与封闭空间分隔开。

  与此相关案例是Nosal II案,该案中,一名雇员未经许可而访问雇主的私人计算机并收集机密信息,该计算机必须具有用户密码形式的访问权限,其行为构成了“未经授权”。另一个案件是Power Ventures案。在该案中,社交网站Power Ventures聚集了来自多个平台的社交网络信息,通过访问Facebook用户的数据并使用该数据发送大量消息,作为其促销活动的一部分。具体的做法是,Facebook要求其用户使用唯一的用户名和密码进行注册,而Power Ventures要求Facebook用户提供其Facebook用户名和密码,以在Power Ventures的平台上访问其Facebook数据。Facebook发现这种情况后,向Power Ventures发出了个性化的终止请求,后者在接到终止通知后,继续绕开IP壁垒获取受密码保护的Facebook会员资料。该行为构成了“未经授权”访问Facebook计算机,从而违反了CFAA的规定。

  以上两案所涉及的信息,都被认为是通常需要授权的信息,如果未经授权故意访问提供相关服务的设施,或者故意超出对访问该设施的授权并由此获得未授权的这些信息,都会构成“未经授权”的违法行为。

  但另一方面,法院认为,如果被访问的信息是一般公众可以获取的信息时,信息“假定是向所有来访者开放”。对这些信息的访问和抓取,不同于CFAA等法律所规定的“未经授权”行为。对于hiQ在接收到领英的个性化终止要求后仍然继续抓取数据的行为,法院就认为这与前面的规定和先例所描述的情形不同:hiQ所访问的是可供公众访问的网站,而非“对公众不可见”的网站;其抓取的数据是所有使用Web浏览器的人都可以获取的信息,而不是受密码验证系统保护的数据。法院原则上认为CFAA的“授权”和“未经授权”概念不适用于hiQ的情形。

  利益平衡标准

  可以发现,对于在先企业搜集、形成的数据,特别是向所有人公开的数据,很难仅仅根据该企业的在先声明、或者是否有个性化的授权来划定数据爬取的界线。而这条界线,最终会归结到利益平衡标准上。正如前文所述,尽管当下关于数据竞争的正式纠纷,主要产生于在先数据企业和数据再使用企业之间,但事实上,其所涉及的利益远远不止于二者之间。这也是为什么在先的数据企业的单方声明和个性化授权不能完全成为界线和标准的重要原因。

  在数据爬取的过程中,涉及到多方利益和多元价值。考察当前已经形成的各数据爬取案和反不正当竞争案,这个利益和价值平衡框架的基本内容可以表示为如下:

  1.已经受到法律明确保护的权利不可受到侵犯。

  例如,用户的基本权利如隐私权、用户作品所形成的知识产权,在先数据企业的商业秘密等,是数据抓取和分享过程中不可侵犯的在先的权利。对在先权利的保护,是利益平衡框架中的绝对保护内容。当下绝大多数纠纷涉及的场景就是数据的抓取触及到用户的在先权利,而没有获得用户的同意或者授权。

  2.利益的综合考虑

  有关数据的权限和利益,需要在具体场景、根据不同数据类型具体进行考察,结合各方面利益要求进行综合考量。用户、在先的数据企业、数据再使用企业以及公共利益都是在判定数据竞争的界线中需要考虑的内容。

  用户是数据的主要来源,数据的使用和再使用,都不可避免地要考虑到用户的基本权利和利益,用户的同意和授权,在大多数场景下是数据使用、加工、转移的前提条件。

  对于在先的数据企业而言,尚未形成法律所确认的“数据权”,因此对在先的企业保护的公平性,很大程度上基于“激励”:对在先企业的保护必须要达到一个能够普遍激励数据企业投入的基本水平。从现有的数据竞争案例来看,这需要综合考虑在先企业的投入与回报,其核心商业模式的需要、被抓取数据的数量,被实质替代的程度,数据再使用企业所提供的产品或者服务与在先企业的相似度、创新性等等。

  数据再使用企业作为大数据产业链条上不可或缺的环节,其基本的竞争权、经济投入、对在先数据企业基于信赖利益形成的基础性依赖、突然的数据供给终止会给数据再生产企业带来毁灭性打击(如hiQ)等情形也需要进行注意。

  此外,还应当关注产业发展和互联网环境所要求的信息共享、互联互通的特点,对更多的平衡因素进行考虑,这包括产业发展的整体要求、公众自由获取信息的利益、市场效率、竞争与创新等等。

  3.数据类型与平衡倾向

  正如前文所述,数据爬取的场景和对象不同,可能会导致一些关键性的概念和要素的含义发生变化。大数据产业方兴未艾,场景细化和数据的类型化研究是判定数据竞争界线的重要方向。当下人们对数据大致有如下分类:

  个人数据和非个人数据:个人数据,指记录个人信息并具有主体指向性形成的数据。我国立法和实践中常称为 “用户个人信息”,欧盟GDPR称“个人数据”(personal data)。非个人信息数据包括两类:一类是本身不具有个人指向的基础数据或者原始数据,例如对于天气的记录等;另一类则指经过匿名化处理脱敏后的、没有指向具体主体的数据。

  基础数据和增值数据:基础数据(原始数据),指直接来自用户的信息,经过在先的数据企业记录形成的数据。而增值数据则是指数据企业对基础数据或者原始数据进行检索、分类、整理、标注、比对、分析、挖掘等增值行为所形成的新数据或者数据产品。

  公开数据和非公开数据:绝大部分的个人数据以不公开为目的,这构成了对用户隐私保护的基础。而公开数据指对所有来访者开放的数据,典型的例子包括新闻、广告、购物评价、求职信息、微博或公众号发文等等。这些信息和数据的发布本身希望获得更多人关注和传播。

  对数据进行类型化,有助于对不同类型的数据施加不同的保护措施,或者根据不同的指标来衡量对数据的使用是否合理:

  个人数据更强调用户隐私权,以及用户对于其个人信息的基本权利和基本自由,大多数个人数据是非公开数据,数据再生产企业从在先的数据企业获得这样的数据往往需要遵循“三重授权”。非个人数据则可能涉及到较多的增值者权益甚至公共利益。

  基础数据或者原始数据的保护应强调用户权益,而增值数据则主要强调增值者的权益。例如,在“淘宝诉美景”案中法院认为,网络运营者对于原始网络数据仍应受制于网络用户对于其所提供的用户信息的控制,而不能享有独立的权利,网络运营者只能依其与网络用户的约定享有对原始网络数据的使用权。而网络大数据产品是运营者的劳动成果,可以为其所实际控制和使用并为其带来经济利益,其所带来的权益,应当为运营者所享有。

  公开发布并以传播为目的数据,在价值取向上应更偏向于数据互联互通,如hiQ案中法院所指出的:如果授予像LinkedIn这样的私人实体全面的权力,使其可以基于任何理由阻止查看者获取其网站的公开信息并以CFAA的制裁作为支持,这可能会对公众言论以及互联网承诺的信息自由流动产生严重威胁。而非公开的数据,则更偏向于强调用户利益和数据持有者的利益,是否能够被爬取和再使用,应当取决于用户或/和在先企业的意愿, 用户的隐私、严格的授权就是值得重点考虑的方向。

  当下,类似的数据爬取纠纷在我国主要是通过《反不正当竞争法》第二条来解决的。该条适用的基本判断准则是诚实信用原则或者公认的商业道德。不过,在数字产业发展的初期,确定的权利和普遍“公认”的准则都尚未出现,这样的判定标准就变得更加富有弹性和不确定性,从而最终演变成复杂的利益平衡机制。这个机制,在促进大数据产业繁荣的大方向下,仔细地斟酌产业中每个群体的利害得失,并最终要和大数据产业发展的长远要求统一起来:保护用户的在先权利,是为了保持数据来源主体对数据市场的整体信任,并激励他们将数据从源头上交付给产业;保护在先企业的利益,是为了激励企业完成数据的最初的搜集、产业化;而保护数据抓取企业的利益,则有利于数据的流动、产品和服务的竞争和创新,从而最终实现大数据产业的多样化发展。从这个意义上讲,用户、在先企业和数据再利用企业的利益平衡,都是在在促进社会福利、产业繁荣的长远利益框架下所进行的博弈。对这些不同主体间的数据竞争分析,也必须随着数据数量的变化和数据类型的繁荣而不断地调整各主体彼此之间的利益边界。目前尚没有任何先例可以穷尽数据竞争的类型和特点。数据竞争边界的判定是一个动态的过程,也是一个需要我们不断深入去挖掘、发现和总结的过程。

标签:

责任编辑:bozhihua
在线客服