目前世界最大的人类记忆行为数据集发布

介绍

为了促进记忆领域研究的发展，我与 Anki 的开发者 Damien Elmes 合作，发布了原用于 FSRS Benchmark 项目的数据集。现在可以在 Hugging Face 上下载该数据集：

FSRS-Anki-20k 数据集包含 2 万份 Anki 用户的复习日志集合文件。这些数据是在复习超过 5000 次的用户中随机挑选的。总计可用的复习日志有 15 亿条。

这份数据集中一共包含两种数据格式：原始 revlog 文件，和预处理后的 csv 文件。前者大小约 50GB，后者约 20GB。

请参见 stats.proto 中的定义。对于命名不清晰的字段，请参考 Anki 数据库结构文档。

数据集的列包括：

card_id: 每张抽认卡的唯一标识。
review_th: 这次复习是当前用户从使用 Anki 以来的第几次复习。
delta_t: 这次复习距离上一次用户复习这张卡片过去的天数。-1 表示这是这张卡片的第一次复习。
rating: 用户对这次复习的打分。1: again, 2: hard, 3: good, 4: easy。其中只有 again 表示回忆失败，其他分数都代表回忆成功。