近日获悉人工智能大数据公司新译科技获得了5000万人民币 Pre-A 轮融资。本轮融资中厦门市美亚梧桐投资管理有限公司,凯泰资本与博将资本合作投资,原天使轮投资机构清华力合继续跟进。新译科技天使轮融资于2016年10月完成,截至目前 Pre-A 轮融资资金已全部到位。本轮融资引入的投资机构主要进行公司日后的资源整合和布局,资金主要用于市场拓展、高端人才引进、硬件资源的投入和研究院建设。
数据显示,2014年全球翻译行业市场规模大达到371.9亿美元,同比增长6.23%,预计2020年将达到530亿美元左右。2014年到2016年发生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。
NMT 的基本思想,是以每一个句子作为独立的神经元,从而打破传统基于短语的翻译障碍。此外,NMT 跳过传统基于短语的机器翻译中间各种子 NLP 步骤(分词、词性标注、句法分析等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。
新译科技从事人工智能文本领域,侧重在机器翻译的研发和衍生品的开发。当前国际上主要有谷歌翻译、微软翻译,国内主要有有道和百度,最近也加入了阿里,腾讯等企业。做机翻的当前这些机构都是大品牌,具有大的流量,新译侧重 B 端和 G 端的落地和应用,产品定位不同,所以与这些大企业在产品定位和服务目标不同。
人工智能主要看三个方面,大数据、算力和算法。数据方面,新译科技投入资金完善数据量,另一方面协助 B 端用户构建内部数据,在部分客户允许的前提下,获取专有数据。算法上,新译采用 GPU/FPGA 等硬件,加之神经网络芯片和云计算。目前 GPU 训练速度接近1。5-2倍的速度快于开源框架 Theano、Tensorflow、Torch 的训练时间。在分布式集群训练环境下,3-5天的时间就可以训练一个千万句对的双语数据,翻译速度在836词/秒(GPU)。算法上则采用了深度学习等机器学习方式。
现在新译科技涵盖了包括爱沙尼亚语、保加利亚语、匈牙利语、土耳其语、意大利语、阿拉伯语、荷兰语、法语、越南语、日语、韩语、捷克语、葡语、德语、西班牙语、英文、俄语、中文等主流的37种语言,当前正在根据用户的需求不断更新上线。