新浪财经讯 “中国国际高新技术成果交易会”的重要组成部分——“2014中国高新技术论坛”于11月16-18日在深圳会展中心举行。上图为华为诺亚方舟实验室主任张宝峰。
以下为演讲实录:
张宝峰:我们实验室是很少公开露面的。我们实验室本身更多的关注是技术本身的东西,所以我今天更多的会在技术路线上做一些理解。
这条线一般叫做忽悠曲线,13年是炒作的巅峰,但是14年是慢慢的下滑了,在整个曲线上大家可以看到一些新的技术,包括机器人,包括我们提到的这种智能制造,工业互联网,以及工业4.0,我们看到大数据的时候,其实这个定义是我们个人最推崇的一个定义,它强调的其实不是说大数据本身的数据处理的复杂度,更多关注的是数据的价值,大数据是需要能够带来更强的决策力、洞察发现力,这些东西都是从流程应用角度出发的,大数据始终代表的是一种资产,一种资源,首先代表的是一个产业,从关注数据本身的内容,到关注数据本身的价值。
它实际上需要一个产业的伸展,需要更为复杂的数据的处理能力。我们再看的时候,数据是不是到底有价值?数据是不是垃圾?这里面有非常经典的两个对比,一个是右边的话是数据仓库,在数据仓库中95%的数据一但存下去基本上就不用了,现在最大的一个问题是什么?就是成本问题,当我们说大数据是石油的时候,其实你挖石油也是需要成本的,我们看到一个真正实际的例子,这是13年的时候,一个加拿大基金的一个例子,在传统的时候以一种典型的模式就是大众营销,大众营销基本上来讲就是现在的骚扰短信、骚扰广告,我们可以采用发传单的方式,这时候可以看到,这支出了42万美金的情况下,他的净盈利是6000美金左右,是负的,是亏损了。
大家可以看到,它产生的直接收益是25万左右,这左右两个表的对比,就是我们前面说的,数据之所以有价值,它产生的产业价值是什么?数据挖掘的成本要必须为商业所覆盖的时候,才可以说明大数据是真正的金矿。
我们说的机器人也好,制造也好,其实大数据里面有一个不得不面临的问题,就是数据量确实太大了,我们认为以前的系统无论怎么去处理都无法去解决,我们在传统的系统里面设计的往往是一个复杂的模型,在一个复杂环境里面做出来,但是很不幸的是这种模型很不好,我们换了任何一个场景,新加任何一个变化的时候,都会产生很多的不适应性,我们看到的一个趋势,在这个时代里面我们不是强调计算机的算法有多强大。人是如何学习的,计算机可以不可以复制他,这是不得不考虑的一个问题。
我们希望未来的机器可以在自己的数据和业务系统的反馈中产生自己学习的能力,产生一些可复制、成长的模型,这样的一个需求就必然导致未来的时代的一个变化,这里面最普遍的一个观点还是监督学习,就是说我一个标注,这些标注的学习过程中会产生一个模型,用于预测。
这里面有一个很大的问题,为什么这个时代才可以真正做这个事情?其实就是底下这个公式,我们也是挺崇拜这个公式的,这个是奥卡姆定理,在以前的时候,没有像现在广泛的数字化生产的条件下,其实对于所有的科学家来讲都是不可获得的,在这部分,只有这个时代到来的时候,当我们所有面临的一切都会自然而然的被数字化的时候,才有可能真正产生大数据时代的一个变革,这个变革本身就是无限制的成长性。
我用几个例子来跟大家分享一下,第一个是华为公司的,这里面我要提到的一个问题就是标注的问题,在大数据里面其实样本空间很大,但是很不幸真正的标注空间非常小,这里面有一个很重要的问题,就是我可以不可以解决从少数的一些标注蔓延到整个数字空间里面,在华为的应用商店里面差不多有12万左右的APP,1800多万的用户,但是我们没有能力去看我们的用户下载了什么APP,所以我们只能有一个小的算法,通过用户本身来去学习,用户A下载了什么什么,用户B下载了什么,如果用户A还下载了其他的应用,我们就可以去看这类人群是不是一个学生的特征,如果可以用机器来分好类了之后,就可以把1800多万的用户进行分类,通过这个就可以很好的解决在大数据样板空间里面标注不够的一个问题。
另外一个问题,其实就是广泛的数据关联和知识管理的问题,在大数据里面,其实不可避免大家提到大的时候,其实往往强调的是多元的数据,我们在很多地方不经意留下的一些数字都会被很多的网络所使用。
我们其实有一个网站,其实主要是给我们公司的内部的服务工程师使用的,这个里面有一个很大的问题,就是我们每年几十万的案例库在导入了之后,其实用户很难使用这些东西,所以就要把问题单和案例库变成一个知识,同时提供了一个搜索的平台,使它可以快速的找到我新的东西可以运用的历史的库。
还有一个翻译的东西都是可以大幅的提升整个产业效率的,我这里想说的话广泛的数据关联是大数据必不可少的一个数据,我还想说一个,就是大数据并不是很神秘。
另外一个,我想跟大家分享的是一个非常实际的例子,我们有个客户,希望我们给他做克隆,在传统的体系里面我们是请了一些专业的人士来评估的,有哪些问题已经暴露出来了,经过我们的克隆之后,我们希望可以达到什么样的满意度,满意了以后,用户可以更好的使用这些网络服务,这样的一个预测,基本上也要1到2天的时间,而且要请一些网络服务工程师里解决,即便这样的话,20多年的评估经验也只可以大家50%多的精度,我们请专家配合帮我们选了一些,我们也可以看到,误差率只有15.28%,这还是一个所有站点的平均情况下最差的一个站点的预期情况,我们真正的一个实际效果只有2.68%,这里面提到的就是一个如何用机器学习去解决以前传统的问题,在我们的生活边上,或者大家的企业里面相信有非常多非常多这样的问题,我们只要能简单的使用一些算法就可以解决大量的劳动或者是知识依赖性比较强的一些东西。
机器里面有一个很好的东西,具有很强的复制性,只要选择一个合适的模型,这个问题的分析也是在5分钟之内可以就分析出来。
我们另外一个例子是网络本身,这一部分现在在整个业界里面也是非常热的,在SDN,这个里面强调了一个问题,就是如何适配运营层的一些需求,我们要去算网络的变化,我们希望在未来的时候可以不可以由机器去学习,因为机器可以非常实时的预测出来流量的趋势,我们可以不可以通过机器本身的算法去做,这里面是属于非常快速的学习和不可能反复性的学习,在这种网络流量里面,一个数字中心每天的流量可能达到了TB级,在这种流量冲击的情况下,我们是不可能把所有的数据记录下来的。
这是另外一个,我们可能希望达到的就是未来的网络的资源调度是通过计算机和计算算法本身的东西不断的成长、满足自动化的需求,以实现最高效业务的调度和平衡网络传输的负载影响。在这里面这几个问题,都从各个方面强调了,华为本身的传统业务里面,大家觉得可能跟大数据并不是相关的,但是我们会找到非常多的使用的情况去解决它,所以我们想说未来的话从技术方向说还是两个趋势也是欢迎大家,如果有志向,有希望、有意愿去做的话也可以去做。
1、牵引学习。人可以在不同的领域里面去学习一些知识,我们希望计算机也可以做到这一点,在一个新的系统里面如何启动的问题,这都是计算机系统很难,或者是基本没有办法去解决的一个挑战。
2、终身学习。在大数据里面我们既希望于计算机可以具备慢慢的学习能力,到目前来讲我们整个国际上都没有办法去讲智能是什么?是一个大学毕业生才可以解决这个智能系统的要求,还是一个3岁的小孩呢?我们是要通过不断的量化,终身的考究来打造一个终身学习的系统,使人本身的代入成本会越来越低,这个也是 目前最关注的两个课题,也希望在未来的时代里面有机会跟在座的各位在某一些场景里面进行一些的协同研究。
总结一下,我们在华为里面更多的关注是打造一个具有学习能力的大量平台,我们希望在未来的时候可以跟在座的各位一起在这个方面取得一些突破,谢谢大家!
已收藏!
您可通过新浪首页(www.sina.com.cn)顶部 “我的收藏”, 查看所有收藏过的文章。
知道了