原文:
towardsdatascience.com/ml-beginners-should-read-papers-506a074ffc10
每天都有超过 100 篇新的计算机科学和机器学习论文被列在 arXiv 上。尽管这些作品在列出之前不一定经过同行评审,但这仍然是一个巨大的信息财富。为了获得一个印象,请查看以下图表,展示了自 2009 年以来的每月提交量增长,数据来自 arXiv:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9ef7d7a775abfd3157510eff22363ac7.png
每月提交给 arXiv 的计算机科学论文数量。图像由作者提供,数据来自 arXiv 的公开数据。
做数学计算,假设平均需要 3 小时从头到尾阅读一篇论文。按照上述数字,一个人需要 300 小时(或 12 天!)才能阅读完所有这些论文。这仅仅是阅读一天的论文——第二天,我们不得不重新开始;再次阅读相似数量的出版物。显然,这对专家和初学者来说都是不可行的。
通常,作为一个机器学习的初学者,你可能想知道:我需要阅读论文吗?鉴于有这么多论文,我该如何阅读呢?以下是原因和方法!
为什么作为机器学习初学者你应该阅读论文
论文是一堂讲座:为了被顶级机器学习会议接受,出版物需要写作清晰。它们包括对主题的介绍、方法部分、结果和总结。总的来说,论文的内容是对一个单一、非常狭窄主题的(浓缩)讲座。对于初学者来说,这是一个在所选领域开始的好机会。
写得好的论文介绍了所有必需的术语(无论是在主要部分还是在补充材料中扩展),并将相关作品分类到分类法中。因此,阅读论文有助于你绘制研究领域的心理地图。随着你论文,你将完善现有的或添加新的领域到这个心理地图中。
阅读和(无意识的)心理映射的过程有助于你对论文提出关键问题。在这里,关键问题可能包括:实验细节在哪里?选择了哪些增强?数据是如何归一化的?反复这样做也会转化为你的编码实践:你避免了其他人犯过的错误。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0dc5595c9e4674b72b988af1b125fddc.png
由 Bozhin Karaivanov 在 Unsplash 上拍摄的照片
如何作为机器学习初学者开始阅读论文
在早期阶段,我建议选择你感兴趣的领域。这些领域可以是计算机视觉、自然语言处理、强化学习、可视化技术。然后,从你选择的领域,搜索顶级同行评审会议发表的论文。在机器学习领域,这些包括:NIPS、ICLM、CVPR、ICLR、CVPR、ECML 等。或者,你也可以浏览顶级期刊,如 JMLR。
同行评审的部分很重要。在同行评审中,研究人员会审查你提交的手稿;在理想情况下——双盲评审——你既不知道评审者是谁,他们也不知道你。这个过程有助于确保论文符合某些质量标准,无论是在实际内容上还是在材料的呈现(读:贯穿全文的红线)上。
在你选择了目标期刊后,寻找有趣的论文。你可以通过标题、精美的可视化(例如,吸引我阅读论文的例子:CKA 可视化,损失地形),或者检查包含的数学表达式的数量(非)来选择。
在你的搜索中,限制自己只查看 2 年或更早的出版物。这个限制有助于你打下更好的基础,并且不会因为太多新的进展而让你感到不知所措。将最新的热门论文留到以后再看。
在你收集了相当数量的论文(5 到 20 篇)之后,开始阅读。你可以按任何顺序阅读论文,不需要按时间顺序。
期待第一篇论文会令你感到不知所措,这是正常的。对我来说,当我开始认真阅读研究领域的文献时,需要 3 小时以上(持续学习:入门指南,场景,指标)。随着练习,这个时间已经减少到 1.5 小时。
通常,你一开始理解多少并不真的重要;重要的是你要阅读它们。
结论
初学者不应该因为机器学习论文数量的增长而感到害怕。作为一名机器学习初学者,每一篇论文都是关于自选主题的宝贵独立讲座。阅读它们有助于你更好地探索你的兴趣领域,并磨练你的分析思维。要开始,只需选择一个机器学习子领域,并挑选不太久远的(2 到 7 年)论文。
快乐阅读和学习!