常见的数据来源获取及利用
对于企业而言,其数据来源通常分为内部和外部两种。不管是内部数据还是外部数据,数据采集工作都是重中之重,因为数据采集的质量直接决定了你的分析是否准确。
对于内部数据,前期的整体数据需求框架规划,数据埋点、数据采集、传输、存储是关键。采集什么数据、用什么技术手段采集?数据采集与产品升级如何匹配?如何埋点,怎样做才能不出现漏埋、错埋?这些事情企业在采集数据前都需要一套严格的采集机制。比如公交行业中,最原始的定位数据采集都是通过对公交车安装GPS系统,采用硬件设备收集收集最原始的数据,然后再通过网络传输等手段将这些数据存储在统一的系统中,而原始数据的采集到数据的应用中间还涉及数据的清洗、建模、应用等多个步骤,中间可谓花费巨多,且一旦数据需求升级,整个数据采集流程都需要重新规划布局。
对于外部数据,通常有通过合作协议获取、购买获取以及自行采集获取等方式。还是以公交行业为例,这部分外部的数据可能是政府或公交集团开放的,相关企业可能需要花费一定的费用购买或者通过其他技术合作协议方式获取相关数据,还有可能是通过爬取第三方数据来源获取。
对于内部来源数据,毫无疑问是没有任何法律风险,那么对于外部数据采集呢?
国外网络数据采集行为的法律和相关道德约束
在国外,约束数据采集内容使用的主要有两块法律:一是版权法相关领域,主要法律依据条款是《数字千年版权法》(Digital Millennium Copyright Act,DMCA);二是侵犯动产相关领域。
版权相关领域,在国外其只保护创造性作品,且与数据采集者的使用目的及采集内容相关。比如,数据采集者采集其他博客网站的文章放到自己网站上,这样可能会惹上官司,但如果你采集一段时间的博客文章用于统计分析则没有问题。如果你采集的是产品发布价格、产品名称等其他事实性的信息,也不会违反版权法。此外,《数字千年版权法》(Digital Millennium Copyright Act,DMCA)还列举了一些对有版权的内容进行自动收集的规则。其中有三点需要特别注意:
1.“安全遮蔽”(safe harbor)保护原则,如果你从一个你认为是无版权的数据源中采集数据,但是有人曾向那个数据源申请过版权,那么只要你在得到提醒后把有版权的材料删除,就可以免责;
2.为了收集信息,你不能用手段故意绕开安全措施(比如密码保护);比如在前面提到的“车来了”的新闻报道中提到,通过使用第三方的“眼镜蛇”程序,获取酷米客后台实时数据,可能就属于此列;
3.你可以根据“公平使用”(fair use)原则使用信息,但需要考虑有版权作品占总信息的百分比,以及使用这类有版权作品的目的。比如我们常见的判断一个论文是否属于剽窃,就要看使用对应的论文信息比重。
也就是说,在《数字千年版权法》的框架下,未经作者或版权所有者的授权,是不可以直接发布有版权的信息。 如果你以数据分析为目的,把允许自由使用的有版权的信息保存在自己的不公开数据库里,是合法行为。如果你把数据展示到网站上供人们浏览或下载,就不算合法行为。如果分析数据库中的数据,发布作品数据分析结果,是合法行为。
侵犯动产相关领域,则从另一方面阐述了数据采集的法规和道德约束。这里的动产是指服务器及相关资源,对于网络服务商而言,一方面希望用户访问他们的站点,消费他们的服务器资源,另一方面又不希望这些资源被过快消耗。于是就有了如下约定,如满足以下三个条件,则爬虫采集过程就属于侵犯动产:
1.缺少许可,比如我们的网站通常都允许爬虫访问的,比如各种搜索引擎爬虫,如果你不希望网站相关内容被爬取,则可在robot中说明,当然也可以通过邮件、电话等其他方式说明;
2.采集过程中对站点造成了实际伤害或经济损失,比如大规模采集拖垮站点,造成网络通道阻塞其他用户无法访问等;比如像新闻报道中提到一样,酷米客等几家公司发现后台被恶意攻击,影响其正常运营。
3.明知可能导致上述结果还故意而为。
此外,美国的《计算机欺诈与滥用法》也对爬虫的使用产生了一定的影响,特别是在针对政府网站或财务信息时。
大数据时代数据的所有权与使用权探讨
据小编了解,国内与数据相关的,入刑的法律主要有两块,一块是与个人隐私数据相关的《非法获取公民信息罪》,一块是《非法获取计算机系统数据罪》。
法律面前无小事,使用网络采集数据该引起数据人的警醒了。而对于公开数据的采集与使用,国外在数据领域相关法律道德约束也给了我们足够的启示。而数据人在使用爬虫的时候或许可以:
尽可能的降低爬虫速度,在深夜等访问人群较少的时候采集数据,以免给对方站点带来损失;
使用他人的数据成果时,须事先征得数据所有者的同意,并明确说明数据来源;
而采集和使用的个人信息、专有信息和受版权保护的信息时,也须先取得必要的授权或许可。
酷米客与车来了的数据纠纷,属于大数据领域刑事第一案,对于未来出现的案例具有指导意义,呼吁人们尊重大数据时代下的产权保护。本案的最大难点是车来了”盗取了“酷米客”的数据是如何界定的,什么样的证据可以被认定是盗取行为? 相信相关数据行业规范与法律会给出一个明确说法,我们也将期待。
不管是公共数据还是企业数据,数据从来都不是免费的资源,当大家呼吁知识产权保护的时候,数据产权或许更应该得到保护。 而在数据产权归属如何界定、数据损失如何衡量等相关法律缺失的情况下,在使用采集、使用外部数据时更需要我们警醒。