引言
身为一名算法工程师,我深知数据的重要性。数据之于模型,就如食材之于厨师。食材的新鲜度和质量决定了菜肴的味道上限,而厨师的烹饪技巧则决定了能否做出最美味的菜肴。同样,数据的质量决定了模型效果的上限,而研究者们不断发掘各种潜在的模型结构,以逼近这一上限。
为了促进记忆领域研究的发展, @墨墨背单词 在 2022 年初开源了 2.2 亿条记忆行为的数据集:
Replication Data for: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling目前该数据集的下载次数已经超过 700 次。为了让这份数据集发挥更大的价值,本文将简要介绍该数据集的基本信息和使用方法,帮助更多科研人员使用这一数据集。
介绍
数据来源
2021 年 12 月 1 日至 2021 年 12 月 31 日期间墨墨背单词 APP 的在线学习用户。
收集方法
- 一位学习者对一个单词的一次复习将产生一条记忆行为数据。其主要字段包括单词 id、学习者 id、时间戳、反馈。
- 当学习者完成当日的学习任务后,当日所有的记忆行为数据将以日志的形式上传至服务器。
- 在服务器上,日志同步系统将学习者的学习日志结构化,写入数据库。
- 按照学习者和单词进行分组,计算每次复习之间的间隔。并将每次的反馈和间隔按先后顺序拼接,得到反馈序列和间隔序列。
数据预处理
- 对学习者 id 进行了脱敏处理
- 将单词 id 替换为单词拼写
- 删除时间戳,保留复习间隔
- 排除第一次反馈
认识
和不确定
的数据 - 排除反馈序列中包含
熟知
和模糊
的数据 - 排除未按算法规划时间复习的数据
- 排除单词拼写中包含特殊字符的数据
数据类型与结构
本数据集包含三份文件:
- opensource_dataset_raw.tsv
- opensource_dataset_difficulty.tsv
- opensource_dataset_forgetting_curve.tsv
其中 opensource_dataset_raw.tsv 是原始数据,其结构如下:
英文列名 | 中文列名 | 数据类型 | 示例 | 注释 |
---|---|---|---|---|
u | 用户 id | string | 62e55b | |
w | 单词拼写 | string | specimen | |
i | 学习次数 | int | 6 | |
t_history | 间隔历史 | string | 0,1,3,9,18 | 首个间隔统一为0 |
r_history | 反馈历史 | string | 0,1,1,1,1 | 首个反馈统一为0 |
delta_t | 学习间隔 | int | 30 | 单位为(天) |
r | 学习反馈 | int | 1 | 0: 忘记;1: 记住 |
opensource_dataset_difficulty.tsv 和 opensource_dataset_forgetting_curve.tsv 都可以从 opensource_dataset_raw.tsv 中得出。具体过程请见论文:
叶峻峣:KDD'22 | 墨墨背单词:基于时序模型与最优控制的记忆算法 [AI+教育]应用价值
该数据集可用于研究人类记忆规律,提高学习者记忆效率。墨墨已经基于该数据集,发表了三篇学术论文:
基于LSTM的语言学习长期记忆预测模型A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling | Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data MiningOptimizing Spaced Repetition Schedule by Capturing the Dynamics of Memory | IEEE Journals & Magazine | IEEE Xplore注意事项
本数据集采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 协议进行授权。
使用本数据集时,请引用本出版物。BibTeX 记录如下:
@inproceedings{10.1145/3534678.3539081,
author = {Ye, Junyao and Su, Jingyong and Cao, Yilong},
title = {A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling},
year = {2022},
publisher = {ACM},
doi = {10.1145/3534678.3539081},
pages = {4381–4390},
numpages = {10}
}
进一步阅读
叶峻峣:间隔重复记忆算法研究资源汇总叶峻峣:[本科毕设] 基于 LSTM 和间隔重复模型的复习算法研究叶峻峣:间隔重复记忆算法:e 天内,从入门到入土。欢迎任何有关数据集的问题,请在评论区提问。