您当前所在的位置:首页 > 团队队伍 > 教师名录

教师名录

俞凯
特聘教授

电话:02134207864

邮箱:kai.yu@sjtu.edu.cn

地址:电信群楼3号楼539

所在研究所:机器智能研究所

个人主页:https://x-lance.sjtu.edu.cn/~kaiyu/

个人简介

现任1946伟德国际源自英国特聘教授、博导,机器智能研究所所长,思必驰公司联合创始人及首席科学家。语言计算国家人工智能开放创新平台负责人,江苏省语言计算及应用重点实验室主任。国际语音通讯联盟会士(ISCA Fellow),IEEE高级会员,中国计算机学会杰出会员。国家高层次人才项目获得者,科技部中青年科技创新领军人才,国家自然科学基金委优青,上海市“东方学者”特聘教授,上海市欧美同学会副会长兼人工智能分会会长。清华大学自动化系本科(1999)、硕士(2002),英国剑桥大学工程系博士(2006)。2012年回国在1946伟德国际源自英国创立智能语音实验室(SpeechLab),后扩展并更名为跨媒体语言智能实验室(X-LANCE)


研究兴趣主要集中在人工智能领域,尤其是以对话为核心的智能语音及自然语言处理,涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体,它可以在复杂的现实环境中运行,处理不确定性,以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文,并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖,Interspeech等多个顶级国际会议的优秀论文奖,以及一系列国际研究评测的冠军。作为中国大陆高校首位入选者,曾任 IEEE Speech and Language Processing Technical Committee 委员,IEEE/ACM Transactions on Audio Speech and Language Processing 副主编,现任IEEE 信号处理分会会议事务理事会、会员事务理事会理事。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席,全国人机语音通讯会议大会主席,以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会(CCF)第十三届理事会理事,CCF语音对话及听觉专委会主任,中文信息学会(CIPSC)第九届理事会理事,CIPSC语音信息处理专委会副主任;中国人工智能产业联盟(AIIA)学术及知识产权组组长,工信部人工智能关键技术和应用评测重点实验室学术委员会委员,第四届全国计算机科学技术名词审定委员会委员,全国信标委用户界面分委会(TC28/SC35)委员,世界顶尖科学家论坛青年科学家委员会委员。


相关研究成果不仅在学术界得到了认可,也成功实现了大规模产业化。作为联合创始人创立“思必驰信息科技有限公司”,任首席科学家,进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性,2016年作为中国仅有的两家人工智能创业公司之一,入选高盛发布的全球人工智能报告中的“Key AI Players”;2017年作为中国仅有的三家人工智能公司之一,入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年,思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”,成为国家级的人工智能战略力量。


教育背景

1994-1999,清华大学,自动化系,学士

1999-2002,清华大学,自动化系,硕士

2002-2006,英国剑桥大学,工程系,博士

教授课程

《智能语音技术》,春季学期,

《自然语言处理》,秋季学期

《人工智能前沿讲座》,秋季学期

论文发表

研究兴趣

  • 语音及音频信息处理: 神经语音信号处理,鲁棒语音及声纹识别,高逼真度语音合成,丰富音频分析及听觉认知,多模态语音处理及通用语音大模型

  • 自然语言处理: 意图及结构化语言理解,知识问答及阅读理解,统计对话系统,多语种语言处理,语言基础大模型,大模型智能体系统

  • 多模态交互: 可控数字人,图形界面理解及交互,科学通用智能体


论文摘选 [Google Scholar]

语音及音频信息处理

  • ASR TDT-KWS: Fast and Accurate Keyword Spotting Using Token-and-duration Transducer
    Yu Xi, Hao Li, Baochen Yang, Haoyu Li, Hainan Xu and Kai Yu
    ICASSP 2024

  • Signal Speech Enhancement With Integration of Neural Homomorphic Synthesis and Spectral Masking
    Wenbin Jiang and Kai Yu
    IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1758-1770, 2023

  • TTS Text-To-Speech With Latent Diffusion
    Zhijun Liu, Yiwei Guo and Kai Yu
    ICASSP 2023

  • TTS VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature
    Chenpeng Du, Yiwei Guo, Xie Chen and Kai Yu
    Interspeech 2022

  • RAA Towards Duration Robust Weakly Supervised Sound Event Detection
    Heinrich Dinkel, Mengyue Wu and Kai Yu
    IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 887-900, 2021


自然语言处理

  • LLM SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
    Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and Kai Yu
    AAAI 2024

  • LLM Large Language Models Are Semi-Parametric Reinforcement Learning Agents.
    Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao and Kai Yu
    NeurIPS 2023

  • NLP A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL
    Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, Kai Yu
    IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, no. 11, pp. 13796-13813, 2023

  • NLP OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue
    Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu and Kai Yu
    Transactions of the Association for Computational Linguistics (TACL), vol.11, pp. 68-84, 2022

  • NLP LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations
    Ruisheng Cao, Lu Chen, Zhi Chen, Yanbin Zhao, Su Zhu and Kai Yu
    ACL 2021


多模态交互

  • Avatar DIFFDUB: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder
    Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen and Kai Yu
    ICASSP 2024

  • Avatar DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
    Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao and Jiang Bian
    ACM-MM 2023

  • GUI Towards Multi-modal Conversational Agents on Mobile GUI
    Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu
    EMNLP 2022

  • GUI TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages
    Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen and Kai Yu
    NAACL 2022


获奖信息

最优论文奖

  • EURASIP Speech Communication 最优期刊论文奖

  • International Symposium on Chinese Spoken Language Processing 最优会议论文奖

  • ISCA Computer Speech and Language 最优期刊论文奖

  • Interspeech 最优会议论文奖

  • IEEE SLT 最优会议论文奖

  • NCMMSC 最优会议论文奖


国家及省部级奖励

  • 国家高层次人才计划、高层次青年人才计划

  • 中青年科技创新领军人才 (科技部)

  • 优秀青年科学基金 (自然科学基金委)

  • 中国专利奖优秀奖 (国家知识产权局)

  • “东方学者”特聘教授 (上海市教委)


专业协会奖励

  • 青竹奖 (中国计算机学会)

  • 前沿学科讲座(ADL)杰出讲者 (中国计算机学会)

  • 吴文俊人工智能科技奖进步奖二等奖 (中国人工智能学会)

  • 吴文俊人工智能科技奖自然奖一等奖 (中国人工智能学会)


其它奖励

  • 科学中国人年度人物(2016) (《科学中国人》杂志社)


学术服务

国际电子电气工程师协会 (IEEE)

  • IEEE 高级会员

  • IEEE 信号处理分会会议事务理事会理事

  • IEEE 信号处理分会会员事务理事会理事

  • IEEE 语音及语言处理技术委员会委员 (2017-2019)

  • IEEE/ACM Transactions on Audio Speech and Language Processing 副主编(2019-2024)


国际语音通讯学会 (ISCA)

  • ISCA 会士


中国计算机学会 (CCF)

  • CCF 杰出会员

  • CCF 第十三届理事会理事

  • CCF 语音对话及听觉专委会主任

  • CCF 企智会(苏州)副主席

  • CCF 大模型论坛常务委员


中文信息学会 (CIPSC)

  • CIPSC 第九届理事会理事

  • CIPSC 语音信息处理专委会副主任


产业界服务任职

  • 科技部语言计算国家人工智能开放创新平台主任

  • 工信部人工智能关键技术和应用评测重点实验室学术委员会委员

  • 全国信标委用户界面分委会(TC28/SC35)委员

  • 第四届全国计算机科学技术名词审定委员会委员

  • 中国人工智能产业联盟(AIIA)学术及知识产权组组长

  • 中国语音产业联盟技术工作组副组长


其它服务任职

  • 上海市欧美同学会副会长

  • 上海市欧美同学会人工智能分会会长

  • 世界顶尖科学家论坛青年科学家委员会委员


学术会议服务

  • ICASSP

    • IEEE 语音语言处理技术委员会委员

    • ICASSP 2025 卫星会议大会主席

  • Interspeech

    • 程序委员会主席,研究领域主席(语音识别/对话系统)

  • EUSIPCO

    • 研究领域主席(语音处理)

  • ACL

    • 滚动审稿机制下的(高级)领域主席/主审稿人/执行编辑(对话系统/语音处理)

  • NAACL

    • 滚动审稿机制下的领域主席/主审稿人/执行编辑(对话系统)

  • EMNLP

    • 滚动审稿机制下的领域主席/主审稿人/执行编辑(对话系统)

  • NeurIPS

    • 研究领域主席

  • SigDial

    • 程序委员会主席

  • ICMI

    • 程序委员会主席

  • 全国人机语音通讯会议(NCMMSC)

    • 大会主席,程序委员会主席