吴明辉:人工智能的核心一定是大数据
- 发布时间:2016-09-06
- 浏览次数:65458
吴明辉:人工智能的核心一定是大数据
日前,明略数据董事长吴明辉接受记者专访,基于他的教育背景与创业实践解析了大数据与人工智能的技术脉络,以及明略数据面向人工智能技术的新布局,包括对未来研发重点的思考。何去何从,开发人员可以从中得到启发。
在吴明辉看来,人工智能核心的是需要有大量的数据支持,不管是机器学习训练还是其他算法优化。近获得的2亿元人民币B轮融资的明略数据,将在基础层继续专注于数据挖掘和存储/清洗/治理等方向的研发,在业务层要求驻场科学家深入客户一线,实现业务需要的智能性,把企业数据的价值真正变现。
人工智能的核心是数据支持
今天看来,机器智能主要来自于统计机器学习的训练结果,尤其深度学习对感知智能及自然语言处理的精度提升贡献巨大,同时也对(标识)数据极为渴求。为解决一些缺乏数据的领域而生的迁移学习方法,前提也是存在一个相关领域的能够提供用于初始训练的数据。
人工智能专业出身的吴明辉很早就相信数据基础的作用,他甚至认为没有数据的场景不可能实现人工智能。所以,以实现人工智能的应用为目标,他在初创业时却瞄准产生和处理高质量数据。吴明辉表示,明略数据专注于数据本身的挖掘,在公司成立早期就希望把大数据往人工智能方向去应用,不管是做大数据,还是做数据本身的挖掘,以及利用挖掘数据去做人工智能的训练样本,因为大数据和人工智能之间的关系非常紧密。
吴明辉在研究生时的专业方向是人工智能里比较特殊的行业生物特征识别,包括指纹掌纹识别和静脉识别等,同今天火爆的人脸识别一样,都属于图像处理领域。虽然计算机视觉和深度学习大热,明略数据没有改变技术策略的意思。吴明辉认为,数据准备的不足,是当前企业应用人工智能/机器学习的主要挑战。例如无人车也需要大量的试车数据不断地测试算法。在整个采访过程中,他也一直强调,“先要把数据处理,数据处理不好任何事都无从谈起。”他认为,当前应该花更多的时间从互联网/移动互联网找到合适的数据并清洗干净,用来实现人工智能。
人工智能+大数据
当然,有了数据,还需要把好的算法应用在数据上,同时在业务场景上面形成反馈系统——如果没有一个很好的应用形式,只有原始的数据,后不一定能形成自我改进的更新换代的能力,如AlphaGo在全世界每年公开的有限的9段棋手棋谱之外,还要自我PK无数轮形成大量的反馈,然后从中寻找输赢的原因改进。
目前人工智能/机器学习算法在工业界里应用比较好的领域,也是用户量很大,有大量的学习样本和训练数据,并且具有重复性,在应用的过程中能够给出算法的评价,能形成闭环,不断地改进优化。例如搜索排序算法、电子商务推荐算法,有自己数据的闭环;如科大讯飞的语音识别,也是由科大讯飞语音输入法收集识别错误的数据,形成一个闭环。
所以,一开始的核心是准备数据,后期的核心就是创造应用。吴明辉表示,未来的研发模式一定是协作的、开源的模式,人工智能算法将不是什么神奇的事。
明略数据的研发路线
吴明辉详细介绍了明略数据的定位、策略和研发重心。他的目标很简单,就是首先帮助客户把数据都做好准备,利用这些数据给各行各业实现人工智能,当然在这个过程中也要用一些人工智能的算法。
聚焦垂直领域
吴明辉表示,目前数据挖掘的市场更大,明略数据的定位是在各个不同的企业里去应用,从底层的数据存储/清洗/治理到上层的关联关系挖掘,以及后面的机器学习,都要聚焦在几个垂直的领域,全套的服务,既有大数据又有人工智能——所有想做人工智能的客户,件事情肯定是把数据弄好。他解释说,企业级服务如果不能聚焦在垂直领域,后就变成一个纯粹的企业级软件,从目前的趋势来看,后的竞争对手就不是市场和企业,而是开源社区,这不是一个靠谱的商业模式,至少在中国如此。
明略数据聚焦的垂直领域,重要的方向是公共安全,其他领域还包括金融、税务,制造业领域等——明略的目标是要在公安领域实现牛的警察,在金融领域实现牛的风险控制师、审贷员,在医疗领域实现牛的医生……吴明辉介绍,在制造业已经有为某大型制造企业基于设备数据和深度学习做故障的检测和预测的初步探索。吴明辉表示,这虽然是简单的工作,但是后的目标会非常令人兴奋。
以数据治理为核心
明略数据现阶段的研发重心,吴明辉表示还在数据治理,其中又比较专注关联数据挖掘——目前企业有各种各样的散乱的数据存在不同的系统里,明略数据要把它们联系起来,并把那些显性的和隐性的关联关系挖掘出来,比如在公安系统,把存在不同系统里的酒店数据、航班数据、通讯数据、地图数据等连起来,根据某几个人经常一同出行,通过算法推断出他们是同事或者朋友。吴明辉认为,把数据治理好并做关联关系的挖掘,把数据真的连接起来,会对将来人工智能的实现有巨大的帮助。