← 返回目录


[开源+墨墨背单词] 时序记忆行为数据集介绍

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

92 👍 / 10 💬

引言

身为一名算法工程师,我深知数据的重要性。数据之于模型,就如食材之于厨师。食材的新鲜度和质量决定了菜肴的味道上限,而厨师的烹饪技巧则决定了能否做出最美味的菜肴。同样,数据的质量决定了模型效果的上限,而研究者们不断发掘各种潜在的模型结构,以逼近这一上限。

为了促进记忆领域研究的发展, @墨墨背单词 在 2022 年初开源了 2.2 亿条记忆行为的数据集:

Replication Data for: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling

目前该数据集的下载次数已经超过 700 次。为了让这份数据集发挥更大的价值,本文将简要介绍该数据集的基本信息和使用方法,帮助更多科研人员使用这一数据集。

介绍

数据来源

2021 年 12 月 1 日至 2021 年 12 月 31 日期间墨墨背单词 APP 的在线学习用户。

收集方法

  1. 一位学习者对一个单词的一次复习将产生一条记忆行为数据。其主要字段包括单词 id、学习者 id、时间戳、反馈。
  2. 当学习者完成当日的学习任务后,当日所有的记忆行为数据将以日志的形式上传至服务器。
  3. 在服务器上,日志同步系统将学习者的学习日志结构化,写入数据库。
  4. 按照学习者和单词进行分组,计算每次复习之间的间隔。并将每次的反馈和间隔按先后顺序拼接,得到反馈序列和间隔序列。

数据预处理

数据类型与结构

本数据集包含三份文件:

其中 opensource_dataset_raw.tsv 是原始数据,其结构如下:

英文列名中文列名数据类型示例注释
u用户 idstring62e55b
w单词拼写stringspecimen
i学习次数int6
t_history间隔历史string0,1,3,9,18首个间隔统一为0
r_history反馈历史string0,1,1,1,1首个反馈统一为0
delta_t学习间隔int30单位为(天)
r学习反馈int10: 忘记;1: 记住

opensource_dataset_difficulty.tsv 和 opensource_dataset_forgetting_curve.tsv 都可以从 opensource_dataset_raw.tsv 中得出。具体过程请见论文:

叶峻峣:KDD'22 | 墨墨背单词:基于时序模型与最优控制的记忆算法 [AI+教育]

应用价值

该数据集可用于研究人类记忆规律,提高学习者记忆效率。墨墨已经基于该数据集,发表了三篇学术论文:

基于LSTM的语言学习长期记忆预测模型A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling | Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data MiningOptimizing Spaced Repetition Schedule by Capturing the Dynamics of Memory | IEEE Journals & Magazine | IEEE Xplore

注意事项

本数据集采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 协议进行授权。

使用本数据集时,请引用本出版物。BibTeX 记录如下:

@inproceedings{10.1145/3534678.3539081,
author = {Ye, Junyao and Su, Jingyong and Cao, Yilong},
title = {A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling},
year = {2022},
publisher = {ACM},
doi = {10.1145/3534678.3539081},
pages = {4381–4390},
numpages = {10}
}

进一步阅读

叶峻峣:间隔重复记忆算法研究资源汇总叶峻峣:[本科毕设] 基于 LSTM 和间隔重复模型的复习算法研究叶峻峣:间隔重复记忆算法:e 天内,从入门到入土。

欢迎任何有关数据集的问题,请在评论区提问。


专栏:学委叶哥的随笔


← 返回目录