← 返回目录


目前世界最大的人类记忆行为数据集发布

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

94 👍 / 4 💬

介绍

为了促进记忆领域研究的发展,我与 Anki 的开发者 Damien Elmes 合作,发布了原用于 FSRS Benchmark 项目的数据集。现在可以在 Hugging Face 上下载该数据集:

open-spaced-repetition/FSRS-Anki-20k · Datasets at Hugging Face

介绍

FSRS-Anki-20k 数据集包含 2 万份 Anki 用户的复习日志集合文件。这些数据是在复习超过 5000 次的用户中随机挑选的。总计可用的复习日志有 15 亿条。

这份数据集中一共包含两种数据格式:原始 revlog 文件,和预处理后的 csv 文件。前者大小约 50GB,后者约 20GB。

数据格式

Revlog

请参见 stats.proto 中的定义。对于命名不清晰的字段,请参考 Anki 数据库结构文档

Dataset

数据集的列包括:

预处理过程

  1. 从 revlog 文件中读取 revlog 条目。
  2. 过滤掉用户在不影响复习安排的筛选牌组中的复习。
  3. 过滤掉由手动重排操作产生的复习。
  4. 对于每一张卡片,如果卡片在复习后又进入新学状态,则过滤掉新学状态前的所有复习。
  5. 计算每张卡片中每次复习之间的时间间隔 delta_t、复习序数 review_th,以及用序数压缩原始的 card_id。
  6. 将预处理好的结果保存为 csv 文件。

许可证

请见 FSRS-Anki-20k License

相关项目

SRS Benchmark


专栏:叶峻峣的文章


← 返回目录