学生们表示,如果他们的作业被人工智能打分,他们会感到“被欺骗”Amika Piplapure 代表大学
剑桥领导的心理学家和人工智能专家团队发现,在评估本科论文时,领先的生成式人工智能系统只有大约一半的时间与人类授予的大学成绩分类相匹配。
该研究使用剑桥大学、诺丁汉大学和曼彻斯特城市大学学生的 761 篇本科心理学论文测试了三种大型语言模型的最新版本:Claude、ChatGPT 和 Gemini。领导该项目的剑桥心理学家 Deborah Talmi 博士表示,心理学是“人工智能评估的理想试验场,因为它重视证据综合和批判性判断,而不是单一的正确答案”。
研究人员得出的结论是,该系统可以大致近似分级范围,例如 First 或 2:i。然而,他们的判断被认为是肤浅且不一致的,低估了人类审查员给出的高分论文,并高估了较弱的提交材料。每个模型给出的分数都比人类考官给出的分数更接近。
据报道,所有人工智能模型都“对语言特征过度敏感”,无论论证的质量如何,都会奖励更密集的句子结构和复杂的词汇。
塔尔米警告说,面临财务压力的大学可能会越来越倾向于依赖人工智能评估工具。她认为,这引起了人们对大学日益增长的压力的严重担忧,要求大学使用人工智能来自动化评估方法以减少工作量。
根据该报告,人工智能系统在 35% 到 65% 的时间内与人类分配的正确学位分类相匹配,具体取决于论文来自哪个机构。剑桥论文的准确性最高(63%),曼彻斯特城市提交的论文准确性最低(35%)。研究人员认为,这种差异可能反映了大学之间不同的成绩范围。例如,剑桥大学的论文是在监考条件下撰写的,范围最窄,而曼彻斯特城市大学的论文提交是基于课程作业的,并且表现出最大的差异。
该报告的作者认为,人工智能存在“集中趋势偏差”,这导致它倾向于中等分数。因此,它很难认可真正杰出的工作。
该报告的合著者、剑桥大学技术与人文学院的亚历山德鲁·马尔科西博士表示:“人类评估员根据每篇论文的论证和概念优点来评判,而人工智能评分则基于统计预测。”
参与这项研究的大学教职员工和学生告诉研究人员,他们认为人工评分是学者和学生之间关系的基本组成部分,而一些学生表示,如果他们的作业主要由人工智能评估,他们会感到“被欺骗”。该报告的结论是,这些人工智能模型还不够一致,不足以用来评分本科作业,“最终的分数应该始终由人类决定。”

