从梵高到AlphaGo Zero： “大成就者”的算法

除去天赋之外，梵高一开始就没有接受过系统的美术教育，才是梵高在艺术上能够成功之处；AlphaGo Zero摆脱了对人类标注样本（人类历史棋局）的依赖，不学习人类下法，最终却能表现得更好。

地球上最著名的画家是“野路子”画家

今年国庆出游，站在阿姆斯特丹的梵高美术馆中流动的人群中，不由得感到一丝荒凉。我们这些庸人，无论是真喜爱还是假喜爱的他的画，愿在此间流连，肯定是拜梵高的显赫声名所赐。作为地球上最著名的画家，梵高活着的时候，籍籍无名，自杀后，在他的葬礼上才得到了同行的第一声称许。

作为梵高祖国的首都，阿姆斯特丹的梵高美术馆不但搜罗了梵高各个时期的作品，而且很有心地展出了还在不同时期，在风格上“影响了”梵高的同辈和先辈画家们的作品，试图让观众细细品味这些作品和梵高画作之间若隐若现的联系。

以这些连续的，有逻辑的关于学习的理由，试图在寻找梵高之所以成为梵高的理由，他有道理，但显然不充分的。除去天赋之外，梵高一开始就没有接受过系统的美术教育，才是梵高在艺术上能够成功之处，也是导致他抱憾而终的原因。

梵高的弟弟是个画商。梵高是看弟弟店里的那些画，萌发了成为画家的心念，此后就撸起袖子，拿起笔了，并在1885年画出《吃土豆的人》这样具有大家气象的不成熟作品。

他对自己在技术上“缺陷”和格调上的“高华”一直很清楚， 1886年还曾在布鲁塞尔美术学院短暂进修过基本技法。1887年和1888年，因为下笔“准确”，梵高的作品更细腻，有更多的变化。而1889、1900已经是他生命中的最后两年，梵高的画得更简单了，冲击力更强烈，人们对梵高画作的印象基本上来自于他这个时期的风光，有人评论，这与他精神出了问题不无关系。

明清以来，中国历史上堪称伟大的画家大概也只有徐渭和朱耷，他们都是落魄文人，不是职业画家，也没有所谓师承。有师承的人，走的则是另一条路，即模仿，试图复制他人成功之路，而我们的教育本质上就是模仿。

不学习人类下法的AlphaGo Zero，最终表现得更好

10月19日，DeepMind在Nature上发表了一篇论文，表示谷歌新一代的人工智能AlphaGo Zero以100比0的胜率碾压了被聂卫平估算为的20段的旗手AlphaGo。

和AlphaGo击败人类围棋冠军的漫天喧闹相比，这则内容如引爆了一颗深水炸弹，只产生了一阵不大不小的涟漪。毕竟，人们只对第一个游过英吉利海峡的人感兴趣，更何况机器之间内斗，远没有人机之战那么调动情绪。

碾压AlphaGo，AlphaGo Zero只需要在4个TPU上花3天时间，自己左右互搏490万棋局。而它的前辈AlphaGo，需要在48个TPU上，花几个月的时间，学习三千万个棋局，才打败人类。

论文的第一通讯作者是DeepMind的David Silver博士，也是AlphaGo项目负责人。他介绍说AlphaGo Zero远比AlphaGo强大，因为它不再被人类认知所局限，而能够发现新知识和新策略。

美国的两位棋手在Nature上点评道，“它的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错，但是中盘看起来则非常诡异。”

美国杜克大学人工智能专家陈怡然教授解释道：“DeepMind最新推出的AlphaGo Zero降低了训练复杂度，摆脱了对人类标注样本（人类历史棋局）的依赖，让深度学习用于复杂决策更加方便可行。”

他认为，其最有趣之处，是证明了人类经验由于样本空间大小的限制，往往都收敛于局部最优而不自知（或无法发现），而机器学习可以突破这个限制。之前大家隐隐约约觉得应该如此，而现在是铁的量化事实摆在面前。

学习人类选手的下法虽然能在训练之初获得较好的棋力，但在训练后期所能达到的棋力却只能与原版的AlphaGo相近，而不学习人类下法的AlphaGo Zero最终却能表现得更好。

他继续说：“这或许说明人类的下棋数据将算法导向了局部最优（local optima），而实际更优或者最优的下法与人类的下法存在一些本质的不同，人类实际’误导’了AlphaGo。”

之所以会需要引用这么大段的内容，是想反过来去考察关于“局部最秀”对人类的限制。之所以会让梵高躺枪，无非梵高在绘画领域就似一个AlphaGo Zero。“文无第一，武无第二“，围棋可以清晰地决出胜负，而梵高无法自证高明，失意而终。

我们教育的本意

信仰和知识，有某个共同点，即获取它们的过程，就是走向封闭的过程。同时，人为什么要学习，是为了更有效率；通过相信自己认为值得信任的人的经验，让自己少走弯路，甚至走上捷径。

另一方面，我们的大脑也是依据这等原理而进化的，我们会把重复执行的行为记下来，存入脑基核——一个类似蜥蜴大脑的部分，这样，我们执行这些行为时，大都基于习惯，而大脑就省心去做别的困难任务。比如当你刚学会开车的时候，将车从车库里驶出来，需要大量的脑力和注意力，当你成了老司机时，你可以一边干别的事，一边把车开上大街。人们在刷牙之前把牙膏挤到牙刷上的举动也常常是不知不觉中完成的。

人们每天通过几十个，甚至上百个这样的行为组块活着的，如果每件事都要关注一下，那么我们的大脑就会被生活中的各种琐碎占满，结果是死机。

同样，高考题中80%的常规题，是只需要看到题目，就应该知道答案的，如果需要仔细看题，再计算一番，那么时间一定是不充裕的，那种满意于每道题都会做、却没有养成见到常规题，就知道答案的懒人，关键考试时常常是要吃亏的。这也体现了我们教育的本意。

我们的教育，培养的不是梵高。教育的本意和大脑养成的习惯回路一样，都是通过重复和记忆，培养“差不多就行”的产品，这也体现了某种效率。围棋教育同样如此，同样在前人经验上的改良，但AlphaGo Zero一上来，就直接敲破了这个由历代的人累计修建的框架。

同样，就中国而言，每个时代的诗人常常都带有时代的特征，既有长处也有时代局限，用宋人米芾的批评唐代书法家的话说：“为时代所压”。相反，不少创业者也会感慨，自己是个外行，却莫名其妙地闯了某个自己喜欢的行业，结果成功了。

陈怡然教授说：“有趣的是如果AlphaGo Zero放弃学习人类而使用完全随机的初始下法，训练过程也一直朝着收敛的方向进行，而没有产生难以收敛的现象。”吊诡的是，AlphaGo Zero尽管没有学习人类，但它仍然在走向收敛，就是说它正在形成习惯。

习惯常常就是某件事物存在的显相，也被称为风格，而我们学习的常常也就是前人的习惯，即风格，甚至因此沾沾自喜。在佛陀那里，“业”是习惯的总集，人类的自我是虚假的，而业只是在这个虚假中影像中，标示“你”的标签。

AlphaGo Zero正往收敛的方向进行，是人类要亡了吗？

（图片来源于网络，文章版权属于原作者）