数据观专访大数据研究院副院长魏琴:把数据变成信息
- 发布时间:2016-07-08
- 浏览次数:49592
大数据研究院副院长魏琴
2011年获得美国伊利诺伊大学香槟分校信息学博士学位;
曾发表过论文10余篇,在国外出版专著1部,是大多数人眼中的“才女”。
高考结束后,选择什么样的专业成了每个学子的大问题。据了解,贵州正迎来大数据时代,贵州省高校也在积极参与大数据战略行动,在不断引进专业人才的同时,也在人才培育上连环布局,贵州大学大数据与电子信息工程学院、贵州省大数据产业发展应用研究院、贵州省公共大数据重点实验室在相继贵州成立,对大数据相关专业进行招生培养,为全省发展大数据提供了智力支持和人才支撑。
贵州省大数据产业发展应用研究院(以下简称“大数据研究院”)由贵阳市人民政府、贵安新区管理委员会、贵州大学共同投资于2014年5月在贵州大学建设。成立两年以来,在贵阳市政府、贵安新区、贵州大学指导下,大数据研究院在成果应用方面取得一定成绩。
本次记者采访的就是大数据研究院副院长魏琴。在采访过程中,魏琴一直强调:“贵州省大数据产业发展应用研究院是一个大平台。我们希望通过这个平台汇聚资源,培养人才。目前我们这个平台有专家80多名,学生创新团队24个,校企联合研发中心4个,入驻的团队一共300多人。对于这些创新团队,我们更关注的是他们的成长,提供给他们成长的路径和平台。”
记者:从资料看您从事的是多源信息融合方向研究,您的研究方向和我们院里面的工作有没有一个好的结合点?
魏琴:我研究的是叫多源信息融合,做的主要是非结构化数据跟结构化数据的融合。举个列子,比如说我们面前的这个杯子,每个人对这个杯子的描述是不一样,你会说它是蓝色的,杯子的包装,杯子的用途,有的人会说它的样子比较像什么,有的人会直接用照片来代表,还有一些结构化的数据,比如它的长、宽、高、价格等等。我做的就是把这些对某一个东西的描述变成一个整体的描述,就还原它的真相,把多个源的信息不管是它有什么样的不同,到后变成一个更能真实的反应这东西的一个描述。大数据的核心一定是采集、加工、分析、挖掘和应用,这实际上决定了你在这个领域能不能有核心竞争力的一个东西。大数据思维特征中有一个叫“杂”,说的是数据越杂越好,来源于不同角度不同维度的信息越多越好,这样更能提炼出还原事物本身真相的描述。数据本身是没有用的,它必须要变成信息,从杂的数据变成信息就涉及到一个非常重要的过程——融合,包括从非结构化数据跟结构化数据的融合,文本数据跟图像数据、视频数据的融合,还有就是不同信息源数据的融合。比如说即使你们两个都是文本数据,但是你们来源不同的地方,这些都叫数据融合。其实人的大脑一直都在做数据融合的工作,每天我们都在对各种各样的事物和事件进行判断和决策,而这个判断的过程是需要各种各样的信息作为支撑的,现在由于数据量太大了,我们希望由计算机来代替人脑进行数据处理及融合。
记者:大数据研究院在大数据发展这块有哪些研究。
魏琴:前两年我们专注于应用方面的研究,接下来会有战略研究、理论技术研究,机器人实验室、人工智能实验室、数据分析挖掘实验室也会相继建立。一些公司在科研方面会有相应的需求,比如数据挖掘,它是一个理论问题但有时也是基于理论应用的。未来我们会更加关注数据分析与挖掘这一方向。数据挖掘现在做的多的是医疗,举个例子,比如看病,你来看病会根据你做过的一些检查产生的数据,加上一些文本数据的描述,机器其实是可以自动给你下处方的,只是现在我们还没有这么去应用,目前还是作为一个决策支持,帮助医生做判断。实际上每个人在生病都会出现不一样的症状,每个药对每个人也会产生不同作用,以前医生都是要根据症状先诊断每个病人到底生的是什么病然后才是下处方。但如果在这个情况下应用大数据,实际上就不存在一定要判断生的是什么病,看病的过程变成是针对你的病症组合找找一个合适药的组合,这里面有很多的因素,比如你对什么药过敏,你的症状的轻重,你对不同药物的反应,你的生活习惯等等,同时你生的可能不是一个病,可能是不同病的一个组合,这些都会影响到这个药物组合的选择,用大数据能更加的对每个人的不同情况进行判断。在美国有一个案例,是用于新生儿测试,刚出生的婴儿看起来很健康,但这个婴儿做了体征测试后,测试结果会提醒医生要做某个处理,大数据会比医生更早的发现你是这个症状,并告诉我们需要做哪些处理。目前我们和北京大学信息管理系以及北京大数据研究院都在这方面进行了合作。贵州今年在建数据的清洗、脱敏、加工中心,我们研究院在这一轮的发展中会起到一个极大的作用。
记者:您刚刚说了大数据研究院在今后大数据的发展中会起到一定的作用,在具体操作中有没有一些实例可以给分享一下。
魏琴:我们很快会在黔东南建立我们个分院,是和凯里学院及申黔数据合作的,叫贵州省大数据产业发展应用研究院黔东南分院。这个分院设立之后会作为一个平台来推进黔东南州整个的大数据发展。目前我们在筹备的一个项目是黔东南的一个块数据平台,这个项目很快就要启动了。黔东南州位于贵州省东南部,由于当地的民族特性和生活习惯建立了大量古村落,全州的传统村落占贵州省的65%,数量位居全国地州。经过多年的传承和发展,这些古村落面临着消失或正在消失的问题,因此需要去保护它们。乘这个项目的契机,黔东南州政府对当地地理、旅游、产业、教育等信息,用APP、相机、航拍、3D扫描这些手段去进行一个的数据采集,建立一个块数据平台。从大战略的基础来说,我们采集到的这些数据并不是全部都可以对外开放的,但我们会先去做一个了解,利用这些数据对它进行一个分析,这些古村落里哪些村落需要保存,哪些村落建议它进行改造,基于这个平台上面得到很多的应用。通过对一个州这么大地域的数据采集,可以说也是一个新的尝试。在我看来,大数据在贵州会做两件事情,一个是大数据作为一个产业本身,比如端产品制造这些;另一个是大数据来帮助我们改造传统产业进而拉动整个经济的发展。大数据不是一个理论的东西,它是一个产业化,很多东西是从实际到理论再到实际的过程是比较长的,要让它得到真正的应用。
记者:我们了解到大数据研究院这个平台上已经入驻了不少公司和团队,那大数据研究院能为他们提供什么呢?
魏琴:我们的定位是全省的大平台。在这个平台上的公司、团队目前已经有300多个人。首先我们会提供给他们一个办公的场地;其次每周四下午会进行培训,邀请专家和他们进行沟通对话,提供一个互相交流的平台;大数据研究院一直都在做应用方面的研究,我们会把之前做过的项目沉淀出来的数据提炼出来,给大家来共享。
对于我们这边的公司、团队来说,他们比较看重的是项目,成立两年多我们的项目量达到上百个,包括地理信息、APP开发、游戏、VR、数据分析与挖掘等领域。在这里,大家是互相协作的关系,每个团队的专业技术方向比较确定,比如黔驴,它主要是地理信息和可视化,对于这些团队来说他们方向是专和深,大数据研究院一旦有新的项目进来,我们会根据这个项目从各个团队中抽调相关的人组成一个新的项目组,这样不仅让大家在技术上得到提升,同时也给他们提供了一个成长的路径和平台。
对于研究院来讲,引进来和走出去是未来的发展方向,主要体现在三个方面:个是练好内功,引进专业人才做好基于应用的科学研究;第二个是人才培养,目前已经开展了大数据类的长短期培训,硕士生、博士生培养是我们的中长期目标;第三个是建立分院,我们马上会在黔东南成立一个分院,将来还会在省内(遵义、安顺)、省外(北京、深圳)建立分院,吸引更多大数据人才,让贵州省大数据产业发展应用研究院走出去。