不支持Flash
|
|
|
石勇:数据挖掘我们是第一的http://www.sina.com.cn 2007年07月19日 16:33 新浪财经
2007年7月18日,2007复旦管理学国际论坛在上海复旦大学光华楼隆重召开,本次论坛主题为:“工商管理与企业成长”。新浪财经直播本次论坛的盛况,下文为中国科学院虚拟经济与数据技术研究中心常务副主任,中国科学院研究生院院长助理、中国科学院研究生院管理学院副院长石勇演讲。 石勇: 谢谢郁老师的介绍,各位同学、各位老师非常高兴有机会和大家见面,我看今天的演讲安排非常有意思,不知道同学注意到没有,今天演讲的题目从营销到金融,从供应链到战略管理,都有个特点,什么特点?就是离不开数据。我到美国商学院读书的时候当年读管理的不超过20人,现在人才辈出。我过去是学数学的,再学管理,万变不离其中,主要是做数据。我得了很多奖,我们现在是首批用数据挖掘做石油开发,我们的研究院名称很有意思,中国科学院虚拟经济与数据技术研究中心,有非常不错的研究团队。 现代西方科技发展最快的也两个明显特征,一个是数据挖掘手段,一个是以网络为基础的知识管理。信用卡就是典型的数据挖掘,信用贷款是有风险的,我们怎么管理风险,就是挖掘。第二个美国的反恐计划,通过各种渠道去搜集信息,包括网上的信息,用数据挖掘的手段去观察恐怖分子的活动。中国科学和技术发展中长期计划“大规模的信息处理和知识挖掘的理论和方法,被确认为支持基础科学研究和国家战略的关键技术之一”。中国从20世纪90年代以后就开始研究数据挖掘,刚开始做数据挖掘的时候并不知道怎么做,现在已经形成了,因为有很大的要求,各个数据库已经建立,市场也预测得很多,例子也比较多。随便举一个,我们现在在做的人民银行信用局信用数据库的尽力,每一个人的信用评分都是由我们做出来的。管理的问题是一个挑战,如何发展能迅速处理海量数据的数据挖掘方法、如何发展能测试基于数据的知识管理系统、如何发展数据挖掘与知识管理这一交叉领域基础理论、如何用数据挖掘与知识管理的交叉理论支持管理决策。我们的研究中心主要工作是研究数据挖掘与智能知识管理系统框架,当然还做实证研究。 人类处理数据已经有几百年的历史了,真正用数学的手段处理数据可以追溯到统计,这是1783年一个非常有名的统计学家Richard发表的文章,就是用数据预测英国这个国家将来的负担能力,这是原版。人类用数据手段解决问题有几种不同的方法。什么是数据仓库的概念可以举两个例子,大的饭店,每天进肉进菜的过程就是数据库,原材料进来,切菜之类的就是数据仓库,最后厨师作菜是数据挖掘。所以概念不一样。图书馆本身是一个数据仓库,整理得非常好。如果老师让你做个作业,作业的结果就是数据挖掘。张三和李四,他们的信用用两个来表现。如果你的工资是六,那代表他的工资可能是一年五万块人民币,年龄是8。这是数据仓库的数字,已经通过规划处理了。李四的每个指标是8和12,你要做的事是找到一个切线,找到维度的位置,用0.4×6,0.6×8,平均分分别是7.2,10.4。建立数据模型就是要把重叠的拉开,这个模型的好处是分多种问题,可以用数学的方法建立很多方程。用数学工具去测试数据的时候不可能100%正确,一定有一个标准。比如非线性的东西怎么样,我们也可以做,做过很多这样的工作。我在美国数据化方面已经培养了17个博士,有6个博士是正教授。这是我的学生做的一些工作。今年在美国召开的数据挖掘会议是由我做大会主席,到时候世界各国都会去。大家知道SVM,这是特殊的情况,我就不讲了。 数据库就是这样,随着你信息量的上升,数据结构开始缩小,我专门写过这方面的文章。我们做e-Business很清楚了,用不同的方法做,四个例子,信用卡、Intrusion&detection、九七三计划、网易。这是我们在第一数据做的工作,大家看信用卡会发现每个月报告有几个大指标,一个是你负债的情况,一个是你取钱的情况,一个是你买东西的情况。这是我们的测试标准,随便给大家举个例子,德克萨斯一个小银行的数据,上面是蓝色的线,下面是绿,六千个人,他们都是搞IT的,破产了有破产记录,小银行每次做分析是三万五千美金,20分钟时间。对银行来讲是很合算的。Five-group,没有技术做不到。这是中国的数据,这是美国的信用积分,平均分数678分,假设人之初性本善,刚进市场的是好人,以后犯罪了要扣分。中国的平分,线不太好看,674、657、674、681。美国的分布和中国的分布,中国的消费结构几乎和美国一样,为什么?我们现在买房子买车,人民银行看了非常高兴,很有信心。我们也做了工商银行,它在中国市场占领1/3的份额。 美国的反恐计划,这个项目我们已经开始在中国做了,具体的不讲了。黑客的攻击网站就像信用卡一样,你攻击网站总想攻,但每次都有蛛丝马迹。网站攻击的人大约有四种,第一种是DOS,你攻击一次不让你进去就算了。第二种是尽管没授权还要想办法进去。第三种是没有授权但一定要想办法攻击它。第四种是绝对的坏人。两种错误,一种是把好人看成坏人,一种是把坏人看成好人。我在美国是第一批用数据挖掘做艾滋病的,已经发表了不少文章。在中国小到感冒大到癌症都可以通过数据挖掘做。网易的项目,市场来源有三个,第一是广告,第二是游戏,第三是VIP客户。这是我们做的分析。美国第三大保险公司,主要是(巴菲特)做的,我的学校在美国就是他建的,本来我想建议他来中国的奥运会,但是医生建议他不能多做活动。金融和保险都是和数据有关系的,大家知道这个行业是最热门的,不管学MBA还是学什么都可以和这个行业挂钩。中国的计划,中国国家审计处二期审计的工程是我们做的,中国人民银行上海外汇交易中心的规则是我们做的等。昨天大家听了报告,早上岚清同志接见我们,对郭院士的看法很赞同。我们要赶上美国非常难,要说数据挖掘我们是第一的。
【发表评论 】
|