只列举我读过的, 推荐的材料.
Basics
- 周志华. (2016). 机器学习. 清华大学出版社.
必读经典. 较为简明, 覆盖了各个话题. 由于封面印着西瓜, 书中以挑西瓜为例讲解, 故称西瓜书. 2020 年在 Springer 上出了 英文版.
- 李航. (2019). 统计学习方法 (第 2 版). 清华大学出版社.
必读经典. 覆盖的话题较西瓜书少一些, 证明部分更多一些. 第二版增加了不少内容.
- Friedman, J., Hastie, T., & Tibshirani, R. (2009). The elements of statistical learning (2nd ed.). New York: Springer series in statistics.
著名的 ESL. 默认读者对统计和优化都有一定基础, 写法不太容易读. 另外一本 Christopher Bishop 的 PRML (Pattern Recognition and Machine Learning) 容易得多. MLAPP (Machine Learning: a Probabilistic Perspective) 比较新, 但我没读过.
- 葫芦娃. (2018). 百面机器学习. 人民邮电出版社.
可以用于查漏补缺. 另外还有一本叫《百面深度学习》, 不太推荐.
- Deep Learning Specialization @DeepLearning.AI
吴恩达的经典课程. 入门介绍. 在 coursera 上也有, 另外民间有中文笔记和作业资源, 可以参考 黄海广的 repo.
- 邱锡鹏. (2020). 神经网络与深度学习. 机械工业出版社.
数学推导写得清楚, 这点好评. 18 年左右就有电子版了, 20 年出版. 我不喜欢 Ian Goodfellow 的 花书, 我觉得没写清楚. 另外一提, dive into deep learning 的数学记号写得也清楚, 一个特色是附带了详细的代码实现.
NLP
很著名的课了. Notes 写得好. 尤其是开头几个 notes (w2v 等), 其他网上的 notes 要么跳过细节, 要么语焉不详.
- Jurafsky, D., & Martin, J. H. (2019). Speech & language processing (3rd ed. draft).
NLP 基本任务和知识. 新版还没写完. 是在李纪为 (Stanford NLP PhD, 香侬科技创始人) 的文章 初入 NLP 领域的一些小建议 中看到的. 建议可以快速过一下深度学习部分, 其他部分按需阅读.
在 repo 里包含了 NLP 相关知识, 以及大厂深度学习落地经验. 另有微信公众号: NLP从入门到放弃.
Recommender system
- 项亮. (2012). 推荐系统实践. 人民邮电出版社.
好的入门书. 主要介绍了各种传统方法. 代码错误巨多.
- 王喆. (2020). 深度学习推荐系统. 电子工业出版社.
较为系统地介绍了深度学习方法.
Reinforcement learning
极简高质量的介绍, 同时提供了大量后续阅读材料. 我个人不喜欢蘑菇书 easy-rl 的写作. 不过后者我只看了第一章, 无法多做评论.
Posts
- Andrew Ng. MLOps: From Model-centric to Data-centric AI
- 夕小瑶的卖萌屋. (2022). 算法工程师的三观测试
- 夕小瑶的卖萌屋. (2022). 19 位算法工程师总结: 机器学习项目成功落地的三条秘诀 (MLOps)
Subscriptions
微信公众号
- 夕小瑶的卖萌屋 (xixiaoyaoQAQ): ML 全般
- 滴滴技术
- 美团技术团队: 有同名 技术博客. 美团在技术分享方面做得特别好, 算法内容很多. 还有本书是《美团机器学习实践》, 完全不如直接读公众号.
- DataFunTalk: 很多企业的机器学习实践
- 李rumor: NLP
Blogs, websites, and repos
众所周知的就不列了. 博客参见 About 页的 blogroll 一栏.
- User guide: contents — scikit-learn documentation: Sklearn 的用户指南, 有些 topic 其实写得特别好, 比如 GBDT. 我愿称之为最强用户指南.
- Facebook Kats: One stop shop for time series analysis in Python: Facebook 最新的时间序列工具包, 包括了他们以前的工作 Prophet. 他家的 技术博客 和 AI 博客 我没怎么读过.
- Distill: Illustrative, interactive, and informative.
- 微软亚洲研究院
- Google AI Blog
- The Stanford AI Lab Blog
- Hazy Research: 以数据为中心. A CS research group at Stanford led by Professor Chris Ré interested in understanding those shifts and building the foundations for the next generation of machine learning systems.
- Apple Machine Learning Research
- The Berkeley Artificial Intelligence Research Blog: 强化学习
- Ernest Chan: 机器学习平台. 随机逛到的小哥, 喜欢他写的文章, 参考文章很有用. 顺附其他机器学习平台的资料
- eugeneyan by Eugene Yan, an Applied Scientist at Amazon.
- OpenAI: 一些新奇应用
- Linkedin 的 AI 文章
- Uber Engineering
Others
偏数学的书, 对 应用 机器学习而言不太重要.
- Boyd, S., & Vandenberghe, L. (2004). Convex optimization. Cambridge university press.
凸优化经典教材, 很容易读. 内容也比较实用. 优点是例子多, 缺点也是例子多 (本来几句话就能讲完).
- Nocedal, J., & Wright, S. (2006). Numerical optimization. Springer Science & Business Media.
优化经典教材. 写得挺好的, 需要时可以当字典查. 深度学习时代梯度下降大行其道, 书中内容对深度学习而言似乎不太有用.
- Cover, T. M. (2006). Elements of information theory. John Wiley & Sons.
信息论很好的参考书.
- Castro, R. (2018). 2DI70 - Statistical Learning Theory Lecture Notes.
本科时用过的讲义, 讲 PAC learning, VC dimension 等理论 (learning theory). 可作为简单易读的科普. 国内比较有名的相关课程是林轩田的机器学习基石, 看起来主要内容大差不差, 所以我完全没看过.