排查问题是大家日常工作中重要的工作内容,相信面对一个问题百思不得其解时一定是很郁闷的,因为我就曾经不止一次面对线上的问题完全没有头绪,或者只能靠猜测来试着还原问题场景……《Tomcat进程意外退出的问题分析》(http://ifeve.com/why-kill-2-cannot-stop-tomcat/)这篇文章让我感触颇多,因为我也追查过一个类似的问题,就看着线上一批批的机器挂掉,Shutdown hook被触发了,但是找不到原因,也一度怀疑是和终端被关闭、SSH退出等等原因,总之就是有SIGHUP,但始终没有结论就不了了之了。看了这篇文章后,感觉自己当时的猜测还是有些靠谱的,但是自己的知识面实在不够,这个问题完全超出我的能力范围了。
Google的不少技术都是通过论文的形式来对外公布的,不光是理论,一些工程类的东西也是如此,很高大上的感觉。比如,《解析Google集群资源管理系统Omega》(http://dongxicheng.org/mapreduce-nextgen/google-omega/)里提到的Omega就是通过论文发布的。不过一般同学都不怎么看论文,一般的文章通俗易懂一些,林仕鼎之前有过这么一个比喻——“看论文是修炼内功”,SO,想要更上一个层次,还是得看些论文啊。
因为第一篇文章中的问题当时实在让我心情沉重,所以今天就推荐两篇吧,我去面壁反思一下。