【央广网】科学家创建中文阅读眼动数据库 有望根据读者能力匹配阅读材料
眼睛的运动和大脑内部的认知活动存在紧密联系。在心理学领域,眼动追踪技术为揭示人类高级认知过程的心理机制提供了重要途径。过去20年,大量实验研究采用眼动追踪技术考察了中文阅读的认知机制,然而,大多数实验研究受到被试量和实验刺激数量的限制,很难满足当前大数据技术和人工智能的发展。因此,建构包含大样本的中文阅读眼动数据库的需求十分迫切。
近日,基于过去十余年的研究,中国科学院心理研究所研究员李兴珊团队建立了大规模中文阅读眼动数据库Chinese Eye-Movement Database。该数据库包含来自57项中文句子阅读实验的眼动数据(包含1718名被试、8015个中文句子、近140万个注视点),计算了8551个中文词的九项眼动指标。统计分析显示,该数据库可以复现以往研究中经典的词频与词长效应,即读者对较低频或较长的词加工更困难,从而产生更多回视和更长注视时间。相关成果已在线发表于Scientific Data。数据库所涉及的全部原始注视点数据、实验材料,以及数据分析代码已全部通过Open Science Framework共享。
研究人员介绍,该数据库具有广泛的应用前景,将为中文阅读认知机制的大数据研究提供重要支撑,也将为人工智能领域的模型开发与训练提供数据基础。
在中文阅读的认知机制研究中,研究人员可直接利用该数据库检验相关的理论假设,节约经济和时间成本;同时,该数据库可以为建立中文阅读计算模型提供基准数据,帮助其进行参数寻优。在跨语言研究领域,该数据库可与其他语言中的同类数据库进行对比,考察不同语言阅读机制的一致性和特异性。
在人工智能领域,自然语言处理的模型大量使用与注意相关的机制,而眼动数据则为这种注意的分配提供了直接参考;大量研究表明,将眼动数据纳入自然语言处理模型,能够有效提升模型的任务表现。因此,数据库将为优化中文自然语言处理模型提供重要的数据资源。该数据库中报告的词汇的眼动指标可作为反映词汇阅读加工难度的指标,帮助研究者更好地控制和操纵实验研究中阅读材料的难度,并有助于为不同阅读能力的读者匹配合适的阅读材料。
附件下载: