祖国网帐号登录

没有帐号?注册

新闻热线 01063878399

  • 微信

  • 新浪

  • 移动端

时代人物 >行业模范>正文

深研人工智能 服务社会大众——记清华大学电子工程系王生进团队

2023-09-04 17:16 来源:《祖国》杂志

    人工智能(AI),在当今社会中人们不再陌生,2023年,ChatGPT不可谓不火爆,它的出现标志着人工智能技术在自然语言处理和智能对话系统领域的重大进展和突破,让人工智能领域再次成为热门话题,开始受到了全球范围内的普遍关注。而在我国人工智能领域,清华大学无疑处于前沿地位,是中国人工智能领域的龙头研究机构之一。


    清华大学电子系的王生进教授带领团队,多年从事计算机视觉、机器学习、目标检测与识别、智能视频分析、生物特征识别等方面的研究工作。以目标检测和识别、行人再识别、行为分析为基础,构建了对于国家安全和公共安全有重大需求的智能视频分析系统。近年来,作为负责人主持和参与863计划、国家自然科学基金、国家十三五十四五重点研发计划等多个国家项目,取得了多项创新性的优秀成果,不仅推动了人工智能技术的发展,也为解决实际应用问题提供了有力支持,在我国人工智能领域做出了贡献,践行了把论文写在祖国大地上的初心使命。


    致力机器智能 创新人机交互
    王生进在国外留学回国后,一直从事人工智能、机器学习和图像处理领域的科研和教学工作,培养了多名优秀博士论文学生,先后参与了10多项国家纵向项目和数十项企业横向项目的研究和开发工作,共获得过一次国家科技进步奖及三次省部奖和一次学会奖,2020-2022连续3年入选“爱思唯尔中国高被引学者”。
    王生进作为清华大学电子工程系博士导师、清华大学媒体大数据认知计算研究中心主任、同时作为北京信息科学与技术国家研究中心跨媒体智能创新团队负责人,带领清华AI实验室团队主要研究方向定位为人工智能、计算机视觉和机器学习,具体包括媒体大数据认知计算、跨媒体智能和多模态协作机器人三大方面。
    其中,多模态融合就是跨媒体智能研究中的一项重要技术,据王生进介绍,多模态指的是多种模态的信息,包括文本、图像、视频、音频等,多模态技术就是将这些不同形式的数据融合在一起进行分析和处理的技术。他表示,要想实现真正的人工智能,让人机交互还原人与人般自然的互动,就需要机器具备视觉、听觉和触觉等强大的感知能力,可以说多模态交互是未来AI技术的一大发展趋势。
    近年来,王生进在行人再识别(Person ReID)研究领域取得了多项国际前沿成果。他提出了基于深度网络的特征空间正交优化理论及深度特征学习方法,以解决深度特征冗余的问题;他首次提出一种特征图层配准方法,有效解决了非刚体行人再识别中的特征配准问题;他提出一种融合表观与步态特征的基于选择排序学习的行人再识别方法,有效利用时空信息融合提高了行人再识别性能。该研究成果分别获得了2019年度公安部科学技术奖、2019年度第九届吴文俊人工智能科学技术奖以及2021年度北京市科学技术奖。

    在跨媒体智能方面,王生进主要研究面向新一代人工智能的跨媒体数据认知计算,对文字、图像、语音等多种媒体进行统一的协同感知和计算,最终实现获得媒体所承载信息的识别和分析更加准确的结果。经过多年不懈深入研究,不断创新技术,目前他带领团队已经突破了跨媒体信息的高效特征学习和统一语义表达,例如输入一段包含视觉信息、语音信息、字幕信息的视频,智能机器能够把这些信息统一表达出来。相比单一媒体,智能机器利用这三种媒体信息去理解同一事件或内容,提高了信息理解的准确性。以此为基础他带领团队已经研发出了一个喂饭机器人原型,为应对我国老龄化社会来临提供良好的基础支撑。


    科技服务社会 赋能美好生活
    在王生进心中,科技应该服务于人们的生产生活,推动社会进步和发展,必须致力于加强科研和技术创新,让科技更好地服务社会,真正服务好人民、造福社会。他带领团队将视觉感知、语音识别、融合理解、动作交互等媒体大数据认知算法和跨媒体智能能力放到机器人身上,相当于为其安装一个智能大脑。他希望这样的多模态协作机器人实体未来能够面向家庭服务、医院护理、校园管理,甚至是太空实验等特殊场景提供技术支撑。
    针对中小学校园安全管理主要以事后处理方式为主、经验型的阶段性工作模式、对突发的学生安全问题防范力不足、师生心理发展趋势无法预测等问题,王生进团队的AI 研究技术成果——“AI+人像态势与情绪描述”,以“实现师生心理趋势预测,推动校园风控预警智能化发展”为定位,研发了具有高水平的基于人工智能与机器学习技术的智慧校园安全防控系统,建成了“赋能中小学校园安全智能化综合管理平台”,并由清华大学技术产业化实体华慧视科技(天津)有限公司负责实施,已在佛山200多所中小学进行了示范应用。
    该师生心理趋势预测预警AI引擎包含多模态识别、智能视频检测、校园安全态势计算和大数据分析四大跨媒体智能技术体系,是以构建人脸识别、行为分析、表情识别、情绪描述、心理预测等现代人工智能技术为支撑的一整套校园安全智能化综合管理平台,可实现“精准督察、过程留痕,决策有据、指挥联动,预警为主、主动干预”的校园安全管理新模式。可通过大数据分析的智能化决策实现校园安全态势计算,智慧校园安全防控生态模式,将为校园安全防控体系智能化带来质的飞跃,打造AI 算力、智能边缘计算产品、智慧校园安全智能预警一体化框架,对行业应用场景进行数字创新赋能,推动校园安全防控指挥体系和智慧校园安全防控智能化平台的建设具有重要意义。
    2023年3月24日,由英特尔中国研究院发起,英特尔机器人创新中心主办的“Intel室内机器人学习全球挑战赛”正式结束,来自国内多所重点高校的参赛队伍在机器人交互/识别和机器人操控两个赛道的各项子任务中夺得奖项。王生进团队的协作机器人研发小组获得识别赛道一等奖,为本届大赛最高奖项。据他介绍,电子系团队(CV-AI团队)所在的机器人识别赛道决赛指定三个目标物体并提供单张有标注图片,要求机器人在室内场景与物体交互,采集无标注视频,持续进行学习,提升机器人的物体检测能力。线上测试环节,由裁判将目标摆放在室内任意位置,机器人在室内移动并寻找目标物体。离线测试环节,由裁判现场采集测试图片,包含低光照、有遮挡、远距离等环境下的目标物体,评价检测模型准确率。最终,CV-AI团队在线测试准确率为7/9,离线测试准确率为100%。在喂饭子任务中,食物放置在盘子或者碗中,机器人需要使用勺子舀取流体,或者叉子叉取食物块,并递送放入到人嘴中。据了解,此次团队所用的关于6-Dof抓取姿势检测的研究已发表在国际机器人顶级会议ICRA2022上,并基于自主研发的多模态感知一体化的协作机器人平台,开发面向老年人的喂饭机器人系统。
    在深耕科研的同时,王生进为了让AI技术走出实验室、走向社会,作为紫为云科技AI使能平台首席科学家,他基于自己跨媒体智能研究成果,以及清华AI实验室团队近30年的技术沉淀,在多模态智能人机交互以及元宇宙系统等方面展开应用研究,并通过产品落地打造出连接虚实世界的“新一代人机交互智能技术引擎”。该引擎相当于一个多技术集成站,将多模态、算力优化、虚拟引擎、数据智能、人机交互等技术赋能给机器,机器成为有感官、能思考的智能体,让人和虚拟世界的交互体验更自然、真实、温暖。王生进表示,他们现在已经实现了识别技术从二维向三维的跃迁,尤其是基于单目的二维手势识别和三维交互手势识别,目前多项产品已广泛应用于数字乡村、数字教育、数字医疗、数字文旅等场景中,为客户提供基于AR真实世界的元宇宙技术型解决方案。

    在人工智能时代,让AI技术平民化,让AI技术更简单、更便捷和更安全,让AI技术落到场景实处,为社会应用服务,让人们的生活通过AI变得更加便捷和美好。这,正是王生进所在团队的梦想,他们正以此为目标砥砺奋进、创新前行。


责任编辑:赵娜

上一篇 下一篇

相关文档
分享到: