← 返回目录


【工具分享】我是如何保持日更,快速、精准地检索答题资料的?

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

219 👍 / 22 💬

长期关注我的读者朋友们应该都知道,我平时的更新频率差不多是一天一篇文章+一篇回答。而我每天除了上 8 小时班,还能顺带维护 FSRS 和 Anki 两个开源项目、运营一个汉化组,并且还有时间看番/漫画/轻小说,以至于引来 Anki 社区网友惊呼:你怎么有时间睡觉?

https://www.reddit.com/r/Anki/comments/1iohu6u/i_become_the_top_3_contributor_of_anki_codebase/

其实这都多亏了这两年越来越强的大语言模型。何以见得?比如:

但汉化组的文章储备也常常有不足的时候,需要我引入一些外部资料,比如一些教育研究专著:

但是这些材料主要以 PDF 为主,而且有些扫描版材料的效果只能用「不堪入目」来形容:

若让我一页一页找相关论述,那我眼睛都要瞎了。

就算丢给 NotebookLM,它也会因为没有办法完全正确地识别文档内容,无法正确按照材料回答问题:

没办法,毕竟这东西就是 garbage in, garbage out

那怎么办呢?这次又得请出我之前介绍[1]的 Doc2X 了:

给没看过上次介绍的读者:Doc2X 可以高精度识别 PDF 文档,支持多栏文本、复杂公式、代码、表格识别。

把 Doc2X 转换后的 markdown 发给 NotebookLM,再问同样的问题,回答效果显著提高:

然后再点一点角标,就可以精确定位到解析后到 markdown:

这答题效率一下就提高了不少。

也可以直接用 Doc2X 自带的 AI 对话,支持 DeepSeek-R1,同样也支持跳转到引用的部分:

有了这些 AI 辅助工具后,我写知乎的效率可以说是蹭蹭往上涨。


除此之外,平时我也需要读不少论文和技术报告,也会让 AI 辅助我,而算法相关的内容自然少不了表格和公式。Doc2X 在这一点上也没让我失望:

相比之下,我之前还试过火山引擎的智能文档识别,效果只能说一言难尽(下图右侧)


再介绍一个小功能:

「编辑转换此页MarkDown」可以很方便地在线编辑对应的 markdown 内容,并且支持导出成 PDF/Word/HTML 等格式:


尾声

正如我之前的回答所述,我最近一直在利用 AI 来提高内容质量和创作效率,反响也很不错:

如何看待ai生成的回答入侵知乎?

反正我也不藏着掖着,就是正大光明地用,撰写本文,也是为了分享一下我在自己的创作工作流中用到的一系列工具,希望这些工具能够对进行类似创作的朋友们有所帮助。


恰个饭:

Doc2X

通过这个链接,或使用邀请码(SYLTI8)注册,可以增加我的会员时长和页面解析额度~


参考

1. 【工具分享】PDF、图片、公式——阻碍我们知识数字化的敌人终于倒下了,吗? ./16167738894.html

专栏:学委叶哥的随笔


← 返回目录