学术活动

心理所联合主办CNCC2023“AI + 辅具”技术论坛

发布时间:2023-11-01 作者:微表情应用研究中心

  人工智能正在改变人类的生产生活方式和思维模式,同时也在提高残障人士的生活质量上发挥重要作用。无论在人际交互还是人机交互中,语音都是一种重要的交互方式。

  10月27日,2023中国计算机大会(CNCC2023)“AI + 辅具:语音,一座沟通的美好桥梁”技术论坛于沈阳成功举办。本次论坛由中国计算机学会(CCF)和中国科学院心理研究所联合主办,CCF人机交互专委会、CCF计算机视觉专委会和中国残疾人康复协会康复工程与辅助技术专业委员会联合承办,论坛主席、心理所副研究员王甦菁主持。论坛邀请了语音、听觉等领域知名学者专家作学术报告。

  清华大学教授郑方作题为“‘声纹+’金融信息无障碍应用方案”的报告,介绍了不同残障人群的信息访问问题分析、面向信息无障碍服务的语音技术解决方案、“声纹+”技术简介及其优势、“声纹+”无障碍核身系统及在金融领域的应用、“声纹+”赋能无障碍设备及其典型应用场景与“声纹+”无障碍应用展望等内容。

  清华大学助理研究员路益嘉作题为“AI辅助的自供电传感在无障碍交流的应用”的报告,介绍了一种新型唇语解码系统的概念,该系统配有一种自供电、低成本、接触式和灵活的摩擦电传感器,以及基于prototype learning的空洞循环神经网络模型。该工具为帮助无声者实现无障碍交流、提高生活幸福感提供了一种很有前景的方法,丰富了唇语翻译系统的多样性,在许多应用中具有潜在价值。

  香港科技大学(广州)助理教授范明明作题为“计算赋能语言训练:如何设计智能交互系统辅助语言流利度训练”的报告。报告指出,语言流利度问题(如口吃)一直是一个备受关注的话题,其对于个体的社交互动、职业发展以及生活质量都具有重要影响。范明明等人设计并开发一款智能人机交互平台CoPracTter。在该研究的基础上,进一步探讨了更多针对性的智能辅助工具,帮助用户全面提高语言流利度。

  科大讯飞研究主管万根顺博士作题为“低资源语音识别”的报告。他指出,得益于深度学习的快速发展,语音识别系统的准确率取得了大幅提升,语音输入、语音搜索以及语音交互等产品已经逐步达到了实用门槛。但是,要想真正实现语音识别系统在各种场景中更自然、更便利、更高效的应用,仍然面临对低资源场景覆盖等诸多的挑战。本次报告将从语音预训练、多模态识别、说话人自适应等角度,解析低资源场景语音识别的解决方案。

  中国科学院声学研究所副研究员崔杰作题为“AI在听力辅助器具的应用”的报告,介绍了听力辅助器具的分类及技术现状,AI技术在不同听力辅助器具的应用现状及前景。

  会上,王甦菁和参与数据库构建工作的孙梦依、高铭、康新晨三位同学,共同介绍了心理所微表情应用研究中心发布的中文构音障碍数据库(http://melab.psych.ac.cn/CDSD.html)。该数据库包括24名构音障碍患者的语音数据,为构音障碍研究提供宝贵的数据资源。报告阐明了数据库的数据收集和标注过程,并提出了一种建立困难语音识别基线的方法。此外,研究团队使用相关数据进行了一个特定人构音障碍语音识别实验,在特定人构音障碍语音识别中产生了较好的结果。

  此次论坛是CNCC2020上“AI + 辅具”技术论坛的延续,以语音为切入点,通过声学、计算机视觉等多种方法,一定程度上解决语言障碍人士和听障人士的人际沟通和人机交互问题。同时,此次论坛的部分报告是把已存在的一种或多种技术,例如智能语音分析技术,迁移到辅助器具上。这种技术迁移将大大降低智能辅具的研发周期和成本,最终降低辅具市场售价,以便向更多残障人士推广辅具使用,从而体现以人为本、科技向善的理念。

  论坛现场气氛热烈,充分展示了AI + 辅具的最新进展和未来研究潜力,进一步加强了该领域的学术交流,为未来的研究提供了思路和方向。


附件下载: