心理所合作研究揭示通过微博用户的行为和语言特征预测自杀风险的前景
自杀是一个严重的公共卫生问题,对个人、家庭及社会都会带来巨大的损失。传统自杀评估方法主要采用问卷、心理测量量表等,大规模运用成本耗费较大,时效性有所欠缺,且依赖自我报告的评估和筛查方法难以找到一些隐藏的具有自杀风险的个体。而随着人们越来越多地在网络虚拟社会中吐露感受和观点,微博论坛等逐渐成为用户自我表达的途径,其中也包含了与自杀有关的表达。和传统社区研究相比,微博对于个体数据的记录兼具时效性和完整性,具有媒体开放性的特点,能渗透较为广泛的人口,并且基于微博的自杀研究可以更加深入地了解和帮助处在重要人生阶段的年轻人。
基于上述背景,中国科学院行为科学重点实验室朱廷劭研究组与香港大学防止自杀研究中心以及北京大学人口研究所合作,针对自杀预防工作的需求与当前国内外自杀风险评估研究的现状,开展基于新浪微博平台的个体自杀风险评估研究,建立微博自杀风险特征体系,并通过机器学习训练自杀风险识别模型,探索对大规模微博用户的自杀风险实时监测,充分发挥互联网大数据分析的优势,与传统的自杀风险识别方法互为补充。研究通过三个实验解决两个核心科学问题:(1)基于微博分析的自杀风险分析的可能性,即验证是否存在一些微博特征,能够显著地将具有自杀风险的个体与没有自杀风险的个体区分开来;(2)基于微博分析的自杀风险分析的可行性,即验证机器学习算法使用微博特征建立预测模型,在微博中识别具有较高自杀风险的用户效果如何。
实验一探讨新浪微博用户中自杀死亡和无自杀意念者行为和语言特征的差异。经新浪微博认证用户提供的信息,收集31 名网络识别自杀死亡用户;邀请微博用户填写自杀意念相关筛查量表,收集30 名无自杀意念用户。差异检验结果表明,行为特征中,自杀死亡组的微博链接率(链接微博数与公开微博总数的比值)和微博互动率(平均每篇微博@其他用户的次数)均低于对照组[0.04(0.04)vs. 0.06(0.04),P=0.029;0.60(0.27)vs. 0.69(0.18),P=0.028],自我关注程度(平均每篇公开微博使用的第一人称单数次数)高于对照组[0.47(0.25)vs. 0.30(0.10),P=0.010];语言特征中,自杀死亡组数量单位词、工作词、省略号使用率低于对照组(均P<0.05),代名词、特定人称代名词、第三人称单数、非特定人称代名词、社会历程词、焦虑词、排除词、性词、宗教词、第二人称单数、人类词、消极情绪词、愤怒词、悲伤词和死亡词的使用率均高于对照组(均P<0.05)。
实验二探讨具有不同程度自杀可能性网络用户在微博行为和语言上的差异。在线招募微博用户参与问卷调查,根据个体自杀可能性量表中文版得分情况,将982名受访者分为446名高自杀可能组和536名低自杀可能组。二列相关分析表明,自杀可能性水平与“社交活跃度”和“未来词”使用频率呈负相关(r=-0.082、-0.073,P<0.05),与“夜间活跃度”和“第三人称单数”、“否定词”使用频率呈正相关(r=0.081、0.077、0.066,P<0.05);非参数检验结果表明,高自杀可能组的“社交活跃度”、“集体关注度”和“未来词”使用频率低于低自杀可能组(P<0.05),高自杀可能组的“夜间活跃度”和“死亡词”使用频率大于低自杀可能组(P<0.05)。
实验三根据微博用户的行为和语言特征,建立分类模型将微博用户中具有高自杀风险的用户从其他用户中识别出来,并检验分类预测的效果。在线招募了909名微博用户参与问卷调查,把采集到的个体样本作为全集,将自杀可能性总分(或每个分量表得分)超过全集的平均值加1个标准差的用户标定为高自杀可能性用户。建模结果表明,对于自杀可能性总分以及下面的4个维度(敌意、自杀意念、负性自我评价、绝望),运用简单逻辑斯回归(Simple Logistic Regression)和随机森林(Random Forest)两种分类器可以实现召回70%以上的高风险标记用户;与填写量表进行筛查相比,使用分类模型进行初筛可以普遍降低25%至50%的筛查工作量。
结合上述三个实验的结果,本研究一方面验证了存在对于自杀风险具有鉴别力的微博特征,即对于个体层面微博特征分析自杀风险具有可能性;另一方面验证了通过微博行为和文本特征识别具有高自杀可能性的个体具有可行性,利用计算机模型进行初筛,协助传统研究方法,可在一定程度上提升大规模实时评估个体自杀风险的效率。研究为国内的当代自杀学研究提供了新的见解和思路。
该研究受国家高技术研究发展计划(AA01A606), 国家重点基础研究发展计划(CB744600), 中国科学院重点部署项目(KJZD-EW-L04),先导专项(XDA06030800),以及香港研究资助局策略性公共政策基金(HKU 7003-SPPR-12)资助。相关研究成果已被国内和国外的期刊接收或发表。
管理,郝碧波,程绮瑾,叶兆辉,朱廷劭. 不同自杀可能性微博用户行为和语言特征差异的解释性研究. 中国公共卫生杂志,2015, 31(3):349-352.
管理,郝碧波,刘天俐,程绮瑾,叶兆辉,朱廷劭. 新浪微博用户中自杀死亡和无自杀意念者特征差异的研究. 中华流行病学杂志,2015, 36(5):421-425.
Guan L, Hao B, Cheng Q, Yip PSF, Zhu T. Identifying Chinese Microblog Users with High Suicide Probability using Internet-based Profile and Linguistic Features: Classification Model. JMIR Mental Health (In press).
附件下载: