问题描述
7月25日,北京大学教务部发布《进一步做好本科学业评价工作的通知》,将从设置容错探索机制、增加等级制评定方式、完善课程考核反馈机制、深化学业多元评价等方面优化本科学生学业评价工作。通知中称,为鼓励学生更好地探索发展方向、发挥个人禀赋,不以单一标准评价学生学业能力,自在学年级为2025级的学生开始,学生学业情况将由成绩单完整体现,在各类含有学业评价的工作中不再使用绩点。
通知中提到,为鼓励学生勇于探索,开展跨学科学习、修读挑战性较强的课程,自2025年秋季学期开始,每学期第九周结束前,学生可在公共基础课程(部分)和专业课程包以外的课程内选择1门课,以“合格制(P/NP)”方式记载成绩。成绩合格可以取得该门课程学分。
北大还将在2025年秋季学期开始增加等级制评定方式。通知称,学校倡导各院系、课程团队和任课教师根据学科定位、人才培养目标和课程性质选择合理的考核方式和成绩记载方式,着力培养学生理解知识、运用知识、提出问题和解决问题的能力,引导学生持续探索创新。各院系可以统一规定专业必修课程的成绩记载方式。平行班课程应采用相对统一的评价方式和标准。任课教师应在教学管理系统的教学大纲中明确考核方式和成绩记载方式,并公布在学生选课系统中。此外,等级制成绩不换算成绩点。
通知称,从2025年秋季学期开始,学校不再设置指导性课程成绩优秀率指标,任课教师可按照学生掌握和运用知识的能力公正评定成绩。各院系应加强对平行班课程的统筹管理,建立相对统一的评价方式和标准。学校将定期向院系反馈课程的成绩分布情况,院系应督促课程成绩分布不合理的授课团队和任课教师及时改进。
为鼓励学生更好地探索发展方向、发挥个人禀赋,不以单一标准评价学生学业能力,自在学年级为2025级的学生开始,学生学业情况将由成绩单完整体现,在各类含有学业评价的工作中不再使用绩点。各院系应根据学科专业特点制定不同使用场景的学业评价办法。对于在学年级为2023级和2024级的学生,各院系可继续沿用原有评价方式;条件成熟的院系在充分考虑学生学习情况基础上,可以提出相应衔接方案,保证平稳过渡。本年度推免资格申请和审核工作按原办法进行。医学部可根据医学教育特点与实际情况做好优化学业评价相关工作。
北大表示,学校将以本次优化学业评价工作为契机,积极应对人工智能带来的变化,不断探索更好的本科教育教学方式;各院系和教师应设计并开展更多项目式学习,推进成果导向的教学和实践教学,拓展师生交流的形式,持续建设高挑战度的荣誉课程和跨学科学习项目等,为学生成长成才创造更好条件。

改革方向挺好的。本来用一个指标(绩点)来衡量所有学生就是一件很扯淡的事情。不同课程的含金量是不同的,而且不同课程所教授的知识,对于不同领域方向的工作/科研来说,价值也是不一样的。
优秀率更是扯淡,完全把学习变成零和博弈甚至负和博弈。这会导致在一门只有最优秀学生选修的课上很难拿到 A,而在另一门大多是基础较差学生选修的课上则很容易拿到 A。这也让绩点投机者有了套利空间,把心思花在怎么选水课更能提升绩点上,而不是去学点真正有用的硬核知识。
但是完全让任课教师自主评定成绩,也会带来问题。理想情况下,一位教授所授课程的分数,应当代表与另一位教授所授课程的相同分数同等的学业成就水平。但不同教授有不同评分标准的话,这就不可能了。
对此,乔治梅森大学法学院的 Gordon Tullock 教授提出了一个解决方案:
我的朋友兼前同事 Gordon Tullock——我有幸认识的最具独创性的人物之一——对此问题提出了一个解决方案。该方法始于某种对学生能力的衡量标准;例如在法学院,可以使用所有学生都必须修读的第一学年各门课程的成绩。在第二学年开始时,每门课程的评分曲线将基于选修该特定课程的学生的第一学年成绩分布来设定。此后的每一个学期,都根据上一学期各门课程的成绩信息重新计算学生的能力评估值,并重复此过程。
大多数本科院校在第一学年并没有统一要求所有学生修读相同课程,因此需要采用其他方式来启动这一流程,或许可以使用 SAT 分数或高中 GPA。另一种方法是,可以从让所有学生处于同一起跑线开始,给所有第一学期的课程设定相同的评分曲线,然后利用学生获得的成绩来逐步建立和改进对学生能力的衡量标准。从技术操作层面来说,在当今计算机和电子表格程序普及的时代,实现这一方案应该相当容易,但据我所知,还没有任何学校采用过这种方法。
——摘自 @Thoughts Memo 汉化组的译文《对教学的思考:2》
这个方案能够让高赞 @藏青色的猫 的回答中提到的第 1、2、3、4、7、8 条诀窍全部失效。
我让 AI 分析一下:
1) 选水课(文科生/艺术生多的课)
现状:利用不同学生群体的学习背景差异,进入一个普遍认为标准较低的「池子」里降维打击。
图洛克方案下的结果:此招数完全失效,甚至会起反作用。
系统会检测到这门课的学生「初始能力评估值」普遍偏低。
因此,系统会自动给这门「水课」设定一条极其严苛的评分曲线。比如,只有 5% 的学生能拿A。
你朋友进去后会发现,她必须在这 100 个学生里考到前 5 名才能拿到 A,难度可能远超一门正常的专业课。所谓的「水课」瞬间变成了「死亡之组」。
2) 选放水的教授
现状:利用教授个人评分标准的差异,找到给分最「慷慨」的老师。
图洛克方案下的结果:此招数完全失效。
教授不再拥有设定分数分布的权力。他可以决定学生 A 比学生 B 优秀,但不能决定给整个班 80% 的学生评 A。
系统会根据选这门课的学生群体的能力,给教授一个固定的分数分布指标(例如:15% A, 30% B, 40% C...)。
教授的权力仅限于将学生填入这些既定的「坑」里。那个「放水放到海里」的教授,会被系统强行「拧上水龙头」。
3) 选简单的课
现状:在同专业内,避开硬核内容,选择更容易掌握的课程。
图洛克方案下的结果:此招数效果锐减,变得毫无意义。
逻辑同第一条。如果一门课因为内容简单而吸引了大量想「刷分」的学生,它的评分曲线就会自动变得严苛。
反之,一门公认的硬课,敢于挑战的学生能力值普遍较高,系统反而会给予一个更「友好」的评分曲线。
最终结果是,无论你选难课还是易课,评价你的标准都是相对于「与你同场竞技的这群人」的能力而言的。投机取巧的空间被大大压缩。
4) 选内容相似的课
现状:利用信息差,靠重复学习来确保高分。
图洛克方案下的结果:此招数依然技术上可行,但其「性价比」急剧下降。
你确实可以通过重复学习获得高分。但是,你这么做的唯一收益只是一个高绩点,却浪费了宝贵的时间,没有学到新知识。
在图洛克方案下,你完全可以去选一门有挑战性的新课,因为评分曲线是公平的,只要你付出努力,同样有机会获得高分。
这个方案通过消除「不公平的惩罚」,降低了学生对「刷分」的执念,从而鼓励他们去追求真正的知识。
7) 买抢课脚本 / 8. 买信息
现状:通过技术或金钱手段,抢占有利的「刷分」资源。
图洛克方案下的结果:此招数基本失效。
这些行为的根源在于「信息差」和「资源不均」是有利可图的。
在图洛克方案下,所谓的「水课」、「好糊弄的教授」这些信息都变得没有价值了,因为系统会自动校准。你花钱买来的「刷分宝典」,在新系统下可能是一本「自杀指南」。
抢课脚本依然可以帮你抢到你想上的课,但「最值得抢的课」不再是「最水的课」,而可能是「最符合你兴趣的课」。这从根本上改变了抢课的逻辑。
希望北大也能摸索出相应的办法,让成绩既能客观反应学生的表现,又能减少零和博弈带来的学习的异化。