心理所构建汉语语言产生数据库

发布时间：2024-02-22 作者：屈青青、冯臣【小中大】【打印】【关闭】

近日，中国科学院心理研究所冯臣助理研究员、屈青青研究员及合作者在Nature旗下的Scientific Data发表汉语语言产生数据库——A dataset of behavioral measures on Chinese word production in picture naming。

说话，看似毫不费力，但其实是人类最复杂的认知活动之一。过去几十年，研究者们试图澄清言语表达（又称为“语言产生”）背后的认知架构和动态加工过程。世界上大约有7000种语言，不同语言的词汇、语音、字形系统大相径庭。现有的实证研究与理论框架主要基于印欧语系。与印欧语言不同，汉语有独特之处：汉语属于汉藏语系，是一种声调语言，同一个音节的不同音调表示不同的词汇与意义，大多数印欧语言则不使用声调来区分词义。其次，印欧语言采用字母拼写系统，而汉语采用非字母书写系统。另外，汉语的语音与字形的对应关系较为复杂，例如，声音/shu/可以对应“书”、“梳”、“树”或“薯”等多个不同的字形）。汉语研究对回答跨语言普遍性和特异性具有独特价值和贡献。的确，一些研究已经表明，音位是印欧语言语音编码的主要加工单元，而音节是汉语语音编码的主要加工单元（O’Seaghdha et al., 2010）。

然而，目前大部分关于语言产生的研究侧重于印欧语言，而对于汉语这一非印欧语言的研究则相对有限。此外，这些研究主要关注于口语产生过程，对于书写等字形产生的关注则明显不足。同时，许多研究依赖于较小的样本量和有限的实验刺激，这可能导致统计效力不足和研究结果的可重复性问题。构建汉语语言产生数据库的需求与日俱增。

此次发表的汉语语言产生数据库记录了667名被试在7种不同语言产生任务中的约20万个试次的反应时间，以及实验材料的多个语言学变量(如：词频、字频、音节频率、习得年龄等)。该数据库为研究汉语口语和书写产生的语言加工提供了丰富数据资源，为探索汉语产生的普遍性与特异性提供了数据基础。此外，该数据库对于开发汉语语言产生的人工智能模型具有独特价值与贡献，有望推动语言认知科学与人工智能领域的交叉与共同进步。

图1.(a) 数据库所包含词汇的词频分布；(b)不同实验任务下的反应时分布特征（右，单位：秒）

注：图a中，左侧为该数据库中包含词汇的词频分布，右侧为CLDC词汇库（Chinese Linguistic Data Consortium，现代汉语通用词表）中的词频分布。在数据库中，词频的分布与大型词汇库相似，显示出广泛的分布范围。图b展示了不同实验任务和范式的反应时间（以秒为单位），平均反应时间介于450毫秒至1500毫秒之间。使用相同实验范式的实验呈现出相似的反应时间分布，而不同范式的实验反应时间分布则显示出较大的差异。实验材料较少的实验，如cyclic blocking paradigm，其反应时间更快且分布更集中；而实验材料较多的实验，如simple picture naming，其反应时间较慢且分布更广。

该数据库发表在Scientific Data。第一作者为心理所冯臣助理研究员，通讯作者为屈青青研究员。该数据库已共享在OSF repository（https://doi.org/10.17605/OSF.IO/6GTZH），并通过心理科学数据银行发布。

该研究得到了国家自然科学基金（No. 32171058, No. 31771212 and No. 62061136001），北京市科技新星项目、中国科协青年人才托举项目（YESS20200138）、中国科学院青年创新促进会项目，中国科学院心理研究所“揭榜挂帅”项目以及中国科学院行为科学重点实验室的支持（Y5CX052003）。

论文信息：

Feng, C., Damian, M.F. & Qu, Q.* (2024). A dataset of behavioral measures on Chinese word production in picture naming. Scientific Data, 11, 185. https://doi.org/10.1038/s41597-024-03022-8

附件下载：

2023年中国科学院心理研究所重要研究论文回顾