随着基因测序成本持续降低以及国家精准医学计划的提出,基因数据重要性日益凸显,得到越来越广泛的应用。基因测序产生的数据对于临床决策支持、疾病预防控制、新药研发和基础研究等方面都具有重大意义。
随之而来的则是基因数据产出量的剧增。海量的基因数据无论是从存储、挖掘还是协作来看,对于存储和计算资源都是个不小的挑战,而资源弹性、稳定低廉、简便易用的云计算正是应对挑战的最好模式。于是,一批拥有云服务和大规模数据平台背景的新兴公司迅速崛起,成为基因行业产业链中重要的一环。
GeneDock(聚道科技)就是其中之一。聚道科技创始人李厦戎此前是阿里巴巴友盟的首席数据科学家,2014年9月创立了GeneDock。GeneDock是国内领先大领先的企业级组学数据管理分析平台,为用户提供专业的组学数据传输、生物信息分析、临床与科研数据管理与协作的整体解决方案。
基因数据有何特殊之处?基因行业是否适合创业?带着这些问题,数据猿对聚道科技CEO李厦戎进行了专访。
数据猿:为什么会选择在基因数据行业创业?
李厦戎:
有一次实际上跟朋友聊天,知道了基因检测这个方向。其实很多跟我一样的互联网从业者,或者我们叫做“IT民工”,其实对生物学并不是特别了解,可能从高考之后就不知道生物的进展是什么。当然我们之前听过人类基因组计划,但是时隔十几年之后,基因组其实现在已经发展到了一个比较成熟的阶段。就是我们能用一个比较低的成本,将一个人的基因组的数据给测出来。
我当时就感觉到这个数据未来会扮演很重要的角色,而且它实际上是在帮助我们去了解自己,帮助我们去面对很多我们将要面临的包括疾病、健康甚至环境的一些问题。所以我觉得这个领域,其实是一个很重要的数据领域,这个领域同样需要我们之前比较熟悉的那套计算的系统和大数据的技术。所以我觉得应该把这些技术用到这个领域来。我觉得基因组这个事情,当我有你的数据,我是能够帮助你自己去了解你自己的。而且这个循环是正向的,因为我知道你的信息,我告诉你的风险。我知道张三可能有家族遗传史,告诉张三一些有用的信息,这时候对他的生活是有很大的改善,也就是说你的数据能帮助你自己。这是做这个数据最大的一个意义。
所以我觉得从某种程度来讲,真的能够让这些人,让大家、让每个人用自己的数据,或者基于这些数据能够为自己,甚至当数据更多的时候,甚至能为别人做一些事情。所以我觉得这样会发挥数据更大的价值,而不只是说我们只是形成一个商业上面的数据变现的方式。
数据猿:基因数据有何特殊之处?
李厦戎:
我们在整个行业上提供一个完整的面向基因组数据的解决方案。这个解决方案并不是说,我把之前的Hadoop或者Spark这样的系统移到这个领域来就Work。因为其实Hadoop和Spark只解决计算的问题,可能Hdvs解决存储的问题,但问题是说这些东西是直接拼凑起来就能用的吗?一开始可能我们是这么想的,好像移过来就可以用,但是其实发现这个领域有这个领域特定的需求。
所以说我们现在正在给这个领域做一个比较完备的解决方案,或者说给这个数据做一个比较完备的操作系统。首先一个点是个体的数据量是比较大的,互联网有一个比较大的区别在于,互联网其实对于个体的数据量并不是很大,可能它群体会很大,可能有几千万个用户,单个用户贡献的数量其实很小,可能就几兆或者几十兆,最多是这样的级别。
但是基因领域单个个体,哪怕你说我做一个小Panel那都得上G级别的数据量,做到全基因组那是百G级别的数据量,所以单个个体的数据量是比较大的。而且它要求整个处理过程,因为毕竟基因组数据,它的大部分的应用会相对比较严谨一些。我说的严谨是说它可能是面向于至少是健康或者是临床这样的应用,而不是娱乐化的场景。
所以说它对于数据处理的要求会更高一些,对结果的一致性,对于整个流程的规范程度,对于数据的可追溯性要求要更高一些,隐私上面要求会更高。所以不太一样。你可以理解为,互联网大部分的时候我们分析的数据并不是那么刻意的看个体,而是刻意的看群体,但基因组现在的在线业务大部分是看个体的,也就我们要强调每个人、每个人之间的特异性,我要找到特异性。我要找到你跟这个人不一样。
数据猿:基因数据行业还有创业机会吗?
李厦戎:
包括怎么提高数据的处理速度,怎么降低数据的处理成本。看到有一些公司做得不错,包括海外的公司也做得不错。
另外还有一方面,怎么样对数据有更好的压缩能力,无论对于存储和传输来讲都会产生一些价值。我觉得这些都是核心的一些技术点。
还有一些点,怎么样去保证这个数据的安全性。保证安全性这个事上面,其实现在并没有特别完整的方案,当然你可以说可以参考国家一些标准,但是这个领域会有一些特殊性,所以我觉得可能是这方面。然后再看怎么样做更好的解读系统,怎么样帮助这些医生更好的去看数据,数据的可视化,操作这些数据,我觉得这些都是很好的一些点。
我只能说有数据技术背景的公司,或者有数据技术研发能力的公司一定会有优势。这个行业我觉得并不排外,并不会觉得你跟我们不是一个行业的人我就会排斥你。而是大家觉得确实这个领域有比较大的空间和潜力,而且大家其实都是技术导向,我们接触的这些合作伙伴都是技术导向,大家觉得只要技术好、只要产品好,为什么不能合作呢?所以我觉得大家合作意识,对于技术的这种关注点和这种接受度都很高。
所以我觉得,只要你是一个真正的有核心技术,有数据技术能力的公司,我觉得相信能够在这个行业里面一定会有你的一席之地。