复习
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 5998–6008.
复习
来自 Google 的
Consistency training methods simply regularize model predictions to be invariant to small noise applied to either input examples or hidden states. This framework makes sense intuitively because a good model should be robust to any small change in an input example or hidden states.
主要参考
一本只有 140 页的综述小册子. 本文主要基于第 5-6 章, 简要介绍图神经网络, 不涉及生成式 GNN 等内容.
难得下一次棋, 水平没啥进步. 默认是五林上的对局.
最常见的是前三打: 一打偏黑, 二打平衡略偏白, 三打白小优 (结论出自 2021/9/13 漱星阁的索索夫规则开局指南). 分支太多了, 只看前几手.
参考 KataGo 和
棋谱的记号完全不明白.
由于历史遗留原因, 第一篇 Python 杂录 放在了 Language 类别下. 第二篇 Python 杂录更偏重 best practices.
模型压缩, 用小模型向大模型学习. 神经网络最后一层通常将 logits $z_i$ 经过 softmax 函数转化为类别概率预测 $q_i$ 输出,
\[q_i = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)},\]其中 $T=1$. 这种概率预测称为 soft target/label (相对于 hard target, 即直接预测一个类别, 而不给与概率).