我和大多数为了保研加分、为了丰富简历而做科研的同学不太一样。我的科研之路,不是从实验室的搬砖开始的,而是从反抗应试教育的痛苦开始的。这是一段「非典型」本科生的科研经历。
本科期间,我发表了一篇国际顶会 ACM SIGKDD 论文[1],一篇 CCF T1 中文核心期刊论文。这两篇论文写作各自只花了一个月,但背后的探索长达四年。
在这个「非升即走」和「同行评议[2]」盛行的学术圈,我大概算是个「异端」。但我相信,我的经历能给那些不愿循规蹈矩、想要自由学习[3]的同学一点启发。
一切始于「逃离」
我的科研并不起源于某个高大上的实验室,而是起源于我高二那年对机械性复习的极度厌恶。
为了逃避低效的死记硬背,我在知乎上发现了 Anki(一款间隔重复软件)。这个工具不仅帮我高考提分 150+,更重要的是,它让我意识到:记忆是可以被量化、被计算、被优化的。
这就好比你在玩 RPG 游戏,发现可以通过计算公式来 Min-Maxing(极限优化)你的角色属性。这种掌控感,是我后来所有研究的原动力。
理论的荒原与 Wozniak 的灯塔
上了大学(哈工深计算机系)后,我并没有急着去刷绩点,而是沉迷于挖掘 Anki 背后的算法原理。
我顺藤摸瓜找到了间隔重复算法的鼻祖——Piotr Wozniak[4]。他是一个充满激情的怪人,为了研究记忆算法,可以像隐士一样在山中小屋闭关。
我被这种纯粹的学习内驱力[5]所感染,开始翻译他的著作,并接触到了记忆的核心模型:
记忆的双组分模型
记忆由两个独立的变量描述:
- 记忆可提取性 (Retrievability, R):此时此刻能回忆起知识的概率。
- 记忆稳定性 (Stability, S):记忆抗遗忘的能力,决定了遗忘曲线的衰减速度。
![]()
虽然 Woz 的理论很美,但在我看来,他过早地简化了模型,且缺乏大规模数据的验证。这种理论与现实的脱节,成为了我切入的契机。
工业界的数据与数学的魔法
2020 年,当别人在卷大厂实习的时候,我选择去了一家垂类公司( @墨墨背单词 ),因为他们拥有百亿级的真实用户记忆数据。
数据是不会撒谎的。在清洗和分析数据的过程中,我发现现有的算法(比如 SM-2)在优化复习策略上存在巨大的缺陷。
我开始思考一个核心问题:如何以最小的复习压力(成本),达到目标记忆水平?
为了解决这个问题,我不得不自学了大量学校没教的数学知识:随机过程->马尔可夫决策过程->贝尔曼方程。
最终,我将记忆复习调度问题,抽象为一个随机最短路径问题 (Stochastic Shortest Path Problem)。
我的解题思路:如果我们将记忆稳定性视为离散的状态点,复习成本视为路径权重,回忆概率视为路径通畅的概率。那么,我们的目标就是找到一条从初始状态(尚未记忆)到目标状态(长期记忆)的期望成本最小的路径。这不再是心理学,这是最优控制理论。
论文发表:副产品而已
有了理论模型和数据验证,写论文其实只是顺水推舟的副产品。
- 第一篇(中文核心):我用 LSTM 神经网络对记忆半衰期进行建模,改进了 Duolingo 的 HLR 模型。这篇论文在一个月内搞定,让我以此为借口逃避了学校的毕设,继续在公司做我喜欢的研究。
- 第二篇(KDD 顶会):导师「怂恿」我投顶会。为了让论文更 solid,我不仅完善了 SSP-MMC(随机最短路径-最小化记忆成本)模型,还自学了 Plotly 做了大量酷炫的可视化分析,甚至解释了为什么「困难的复习」往往价值更高。
论文地址: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling
为了打破领域的封闭,我在墨墨的支持下公开了数据集[6]和代码[7],这也是我最自豪的部分。
给学弟学妹的建议
回顾我的本科科研经历,我只想说:
- 不要为了发论文而发论文。如果你的目标只是保研加分,你会过得很痛苦,且产出平庸。
- 寻找真实的问题。我的研究源于我自己在背单词时的痛点。解决自己的问题,往往也能解决世界的问题。
- 自由学习。学校的课程表是滞后的。我用到的核心数学工具和编程技能,90% 都是通过互联网自学的。
- 拥抱开源。Talk is cheap, show me the code.
最后,不要迷信权威,也不要害怕成为「异端」。在真理面前,我们都是探索者。
以上内容初稿由 gemini-3-pro-preview 根据文章《我是如何在本科期间发表顶会论文的?(内含开源代码和数据集)》生成。
参考
1. 优化间隔重复调度的随机最短路径算法 https://memodocs.maimemo.com/docs/2022_KDD2. 同行评议的兴与衰 ./1983908490331301204.html
3. 自由学习 ./272543239.html
4. 哈基米“深度分析”人物志——调和自然主义与技术理性的教育理论家 Piotr Wozniak ./1982016178810532310.html
5. 4 学习内驱力 ./52990549.html
6. MaiMemo 间隔重复记忆行为开源数据集 https://memodocs.maimemo.com/docs/dataset
7. SSP-MMC https://github.com/maimemo/SSP-MMC/