主讲嘉宾:王金桥教授
主持人: 李小兵教授
时 间: 2022年6月6日 20:00-21:30
题 目 : 多模态大模型的技术探索与音乐评分应用
主 办: 音乐人工智能与音乐信息科技系
入场方式
OOM会议号:978 438 6825
入会密码:8888
题目:多模态大模型的技术探索与音乐评分应用
报告简介:
自从GPT/Bert模型提出以来,基于自监督学习的预训练模型迎来了爆发式发展,随着训练数据和模型参数持续增加,各项下游理解任务的性能也取得了显著提升。但当前的研究主要集中单一语言或者图文模态,更丰富的包含文本、语音、图像、视频等多种模态数据的信息并未被充分利用与学习。因此,预训练模型必然由单模态往多模态方向发展,通过将文本、语音、图像、视频海量弱相关的多模态数据利用各自编码器和解码器实现跨模态学习,开拓性地实现了图像、文字、语音和视频等不同模态数据之间的统一表示和互相生成,基于国产化基础软硬件平台打造,既可以实现跨模态理解,还能实现跨模态生成,与CCTV合作在“唱出我心声”节目中实现了音乐评分的下游任务,同时实现了在跨模态媒体理解、多模态对话多个场景的落地应用。
嘉宾简介:
王金桥 ,中国科学院自动化研究所模式识别国家重点实验室研究员,博士生导师,中国科学院大学人工智能学院岗位教授,中科院人工智能创新研究院“2035团队”跨模态通用人工智能平台负责人。现任多模态人工智能产业联盟秘书长,中国技术创业协会技术创新工作委员会副理事长,获北京市高聚领军人才、广州市创新团队领军人才、山东省泰山领军人才等称号,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究。共发表包括IEEE T-PAMI、TIP、TNNLS、ICCV、CVPR、NeurIPS、ECCV等国际权威和顶级会议论文300余篇,国际杂志50余篇,国际会议220余篇。完成国家标准提案3项,发明专利36项,10项国际视觉算法竞赛冠军,吴文俊人工智能科技进步二等奖,中国发明创新银奖。曾携自主研发的人工智能机器人在CCTV1、CCTV2、CCTV3、北京卫视和湖南卫视等做技术展示。
原文链接:http://www.ccom.edu.cn/xwyhd/xsjd/2022s/202206/t20220605_87156.html