科研进展

心理所研究发现人类双侧喉部运动皮层以模拟发音运动的方式因果性参与言语知觉决策

发布时间:2023-08-14 作者:中国科学院行为科学重点实验室 杜忆研究组

  在嘈杂的公共场合打开手机的语音识别功能时,我们经常发现它无法准确识别我们的言语,甚至错误地捕捉了别人的话。但是,我们自己在相似的场合里交流却好得多。为什么在语言交流中,人类大脑拥有较强的抗噪声能力呢?

  问题的答案可能在于我们的大脑会“自说自话”:人类使用大脑的言语运动皮层控制发音器官运动来说话,而Liberman等(1967, Psychol. Rev. 74)提出的言语知觉运动理论认为,言语知觉本身是对说话人的发音动作进行还原的过程。在神经层面上,Hickok和Poeppel(2007, Nat. Rev. Neurosci. 8)提出的言语加工的双通路系列模型指出,大脑的听皮层与运动皮层构成神经环路来理解言语;特别是,言语运动皮层能主动对说话人的发音动作进行模拟,并与听觉信号进行比对,特别在知觉困难时对听觉加工进行代偿(图1, 2)。

图1:言语知觉的感觉运动整合漫画图

听皮层的“土地”上存放着音节“文物”(即听觉表征),“尘土”(即干扰声音信号的噪声)让音节的听觉表征变得模糊;而皮层言语运动系统参与听觉加工的方式就像一名考古工作者:用自身储存的“运动模板”与封存在土壤里的音节表征做匹配,自上而下地辅助听皮层拂去尘土,还原说话人表达的真实内容。

  著名神经外科医生Penfield发现,运动皮层在控制身体运动时呈现出“效应器特异”的分区特征:不同区域控制身体不同肢体(如手和脚)的运动(Penfield & Boldrey, 1937, Brain);而运动皮层控制说话的方式也类似:“舌部区域”控制舌部运动(发出“滴”、“踢”声),“唇部区域”控制唇部运动(发出“巴”、“趴”声)。更有意思的是,在听话时,听者的运动皮层也出现了与说话时相似的分区特征:唇部运动区参与双唇辅音的知觉,舌部运动区参与齿辅音以及元音的分辨,体现出运动皮层控制言语运动的效应器特异性。

  另一方面,与唇部和舌部运动控制相似,运动皮层中也存在“喉部运动区”以控制喉部的运动,从而使得人能在言语交流中能自如地控制发音和不发音,以及音高的高低变化。这两者不仅是人类得以表达言语的基础能力,更对一些辅音(如普通话声母d和t,两者的区别在于嗓音起始时间长短,即发音的时间点)和声调(如普通话的一声和二声,两者在音高变化上不一致)的发音至关重要。然而,喉部运动区是否以及如何参与言语知觉的问题一直悬而未决:科学家们尚不清楚,喉部区是否与唇舌部运动区一样“效应器特异”地参与知觉,左右侧喉部区如何在不同任务难度中进行协同,以及该区域参与了言语知觉决策(即对音节的分辨)的哪些具体过程。

  为回答上述问题,中国科学院心理研究所杜忆研究组近期开展了一项磁共振引导的经颅磁刺激研究,发现人脑双侧喉部运动皮层以模拟发音的方式因果性地参与到了言语知觉决策的多个阶段,特别在知觉困难的情境下辅助听觉加工。该研究成果于8月5日刊发在Nature Communications。

图2: 喉部运动区参与普通话言语知觉及研究方案示意图

  首先,研究招募了48名健康成年汉语普通话母语志愿者,让他们在功能磁共振(functional magnetic resonance imaging,fMRI)扫描过程中分别进行喉部(说“AH”)和舌部(轻声说“D”)运动。研究者根据与运动任务相关的大脑激活情况来确定控制喉部和舌部的运动皮层区域。

  接着,研究招募了90名健康成年汉语普通话母语志愿者,并采用经颅磁刺激技术(transcranial magnetic stimulation,TMS)对其运动皮层的喉部或舌部控制区域的活动进行干预,以观察志愿者在音节分辨任务中的成绩变化。TMS是一门对人体无伤害的神经调控技术,通过变化磁场诱发颅内感应电流以暂时兴奋或抑制特定的大脑皮层区域,以短暂地改变认知加工方式。科学家们运用TMS这一特性来探究特定脑区在认知过程中的“因果性”:如果脑区在某项认知功能中具有关键的意义,那么对它的活动进行调节会引起认知和行为的改变。具体而言,研究对志愿者的左/右运动皮层进行了重复性TMS(rTMS,实验1,探索性实验)或theta爆发式脉冲刺激(TBS,实验2,正式实验),以研究在有/无背景噪声掩蔽下的声调和d/t声母的范畴知觉决策是否会受到相应的影响。

  实验一运用语音合成算法生成适合志愿者听觉敏感区间的5×5步正交的单音节普通话声母d-t和声调一声–二声连续体矩阵,64名志愿者在清晰无噪声和有噪声下做声调或声母的范畴分辨任务,在语音播放的同时在其左侧或右侧的喉部运动区、舌部运动区(对比脑区)和头顶(假刺激)施加10-Hz的3脉冲TMS刺激进行靶向干预。

  实验二运用与实验一相同的语音合成算法分别生成适合志愿者听觉敏感区间的单音节声母d-t和声调一声–二声连续体,26名志愿者在接受TBS后进行与rTMS实验相同的任务,抑制性的cTBS、兴奋性的iTBS或假刺激(扭转线圈)施加在志愿者左侧或右侧的喉部运动区对其进行扰动(图5)。

  在数据分析上,本研究应用了两个独立的分析流程来研究实验二中TBS刺激喉部运动区对志愿者的行为结果的调控效应:1)通过心理物理曲线拟合探究知觉敏感性的变化(图3);2)使用层级漂移扩散模型(HDDM)分析知觉决策受影响的阶段(图4)。

  心理物理曲线拟合是研究人对物理信号(声、光等刺激)感知特征的经典方法,通过建立信号的物理强度(如声音大小)变化与人知觉判断(如是否听见声音)之间的函数关系来探究人对信号知觉的心理规律;通过对比TMS与假刺激条件中志愿者心理物理曲线斜率的变化,可以推断喉部运动区对言语知觉敏感性的贡献。

  HDDM是行为决策研究里较为流行的计算模型:模型将人做决策的过程看成是证据积累的随机过程,最终选择及决策速度取决于决策所需的证据积累量(即边界阈值a)、证据积累的速度(即漂移率v)和人自身的决策偏好(即起始点,z);通过对志愿者反应方式和反应时进行HDDM模型拟合,对比TMS与假刺激条件中志愿者各个HDDM参数的变化,可以推断喉部运动区在知觉决策中具体参与了哪些阶段。

图3: 心理物理曲线与TMS对曲线斜率调控效应示意图

图4: 层级漂移扩散模型(HDDM)与TMS对模型参数调控效应示意图

  心理物理曲线斜率分析(知觉敏感性)表明,cTBS刺激喉部运动区抑制声调和声母知觉:cTBS刺激左侧喉部运动区抑制噪声下的声调知觉(图5e);cTBS刺激左侧喉部运动区抑制安静(图5c)和噪声下(图5e)的声母知觉;cTBS刺激右侧喉部运动区抑制噪声下声母知觉(图5f),但是并不影响声调知觉和安静条件下的声母知觉。

 

图5: 实验二实验设计(上)及心理物理曲线斜率分析结果(下)

  HDDM分析(知觉决策阶段)表明:对于所有条件(图6,刺激左侧喉部运动区的安静条件下的声调知觉除外),cTBS显著增大了决策边界的阈值(a);左侧喉部运动区cTBS刺激影响证据积累速率(v)(图6a、b、i和j),但刺激右侧喉部运动区无效应(图6c、d、k和l);证据积累的起始点(z)只在有噪声干扰的辅音知觉中同时被左侧(图6f)和右侧(图6h)喉部运动区刺激时受影响。

图6: 实验二HDDM和反应分析结果

  研究结果表明(图7):双侧喉部运动皮层以模拟发音(效应器特异)的方式因果性地参与了声调和声母知觉决策,表明喉部运动皮层参与言语知觉的效应器特异性。与此同时,在参与言语知觉决策时,左侧喉部运动区发挥主导作用,而右侧同源区则在知觉困难条件中有更多参与,这显示出大脑应对不同难度的任务时灵活调动认知资源实现功能重组织的可塑性。此外,在参与知觉决策的时程上,双侧喉部运动区参与决策的多个阶段,而具体参与的阶段取决于半球和任务难度。

图7: 双侧喉部运动区参与言语线索知觉决策的概念模型

  综上所述,该研究发现双侧喉部运动区参与声调以及声母范畴知觉的因果性机制及其受任务难度调节的规律与参与时程特点。同时,该研究对言语障碍康复的临床转化研究以及构建更高鲁棒性、高动态适应性的人工智能前端算法研究具有参考意义。

  该论文的第一作者是心理所博士研究生梁柏燊(已毕业),杜忆研究员为通讯作者。研究获得科技创新2030“脑科学与类脑研究”重大项目(2021ZD0201500),中国科学院心理研究所“揭榜挂帅”项目(E2CX3625CX),国家自然科学基金(31822024),中国科学院战略性先导科技专项基金(XDB32010300)的支持。

  论文信息:

  Liang, B., Li, Y., Zhao, W. & Du, Y. Bilateral human laryngeal motor cortex in perceptual decision of lexical tone and voicing of consonant. Nat. Commun. 14, 4710 (2023).https://doi.org/10.1038/s41467-023-40445-0

  相关论文:

  Du, Y., Buchsbaum, B. R., Grady, C. L. & Alain, C. Noise differentially impacts phoneme representations in the auditory and speech motor systems. Proc. Natl. Acad. Sci. U.S.A. 111, 7126–7131 (2014).

  Liang, B. & Du, Y. The functional neuroanatomy of lexical tone perception: an activation likelihood estimation meta-analysis. Front. Neurosci.12, 495 (2018).


附件下载: