在去哪儿网的实践之路

时间：2023-02-15 理论教育版权反馈

【摘要】：而ElasticSearch部署在Mesos集群外，主要考虑到数据持久化的问题以及资源消耗。采用Marathon和Chronos调度Logstash和Kibana，以及相关的监控、统计和日志容器。数据来自多种方式，针对不同的日志类型，采取不同的发送策略。同时，监控数据通过statsd发送到内部的监控平台，便于后续的通知和报警。另外，对于基础监控类的容器，Marathon目前还未支持自动scale，需要自己实现。在使用时，不再根据容器的资源使用情况动态调整实例数量，而是交替发布任务抢占CPU。

作者徐磊

年初的时候机票的同事向我们反馈，希望可以提供Docker环境帮助他们快速构建开发环境，加速功能的迭代。正好我们OpsDev团队也在为容器寻找试点，双方一拍即合，立即开始了前期的调研工作。

随着交流的深入，我们发现对于一个包含了几十个模块，快速迭代的系统，开发团队想要建立一个相对稳定的，能覆盖周边模块的开发和自测环境是非常困难的，除了要申请虚拟机外，还要新增profile，创建jenkins job，发布，服务依赖等一系列的流程。

即使解决了以上问题，运维这套环境又是个大麻烦：项目之间的依赖关系写在配置文件中，切换环境时需要手工修改；多套不同版本的环境维护起来费时费力；对于涉及面较广的联调，需要其他组的同事配合完成，更不用说这些模块间的版本如何有效的保证一致了。。

经过多次的讨论和调研，最终双方团队确认出几个业务线最关心的功能，优先解决：

业务线的同事用docker-compose临时搭建了一套开发环境，但是需要手工维护版本以及nginx的转发，同时也暴露出了更多的问题：

需要找到一个治标又治本的方案解决业务线的问题。

参考了现有的容器集群方案后，最终焦点集中在了Apache Mesos（后简称Mesos）和Google Kubernetes上。Kubernetes的pod和service概念更贴近业务线的诉求，同时，Mesos在资源管理和调度灵活性上显然经得起生产的考验。最终团队决定两者并行测试，在各自的优势方向寻找试点项目做验证。

仔细考量后，我们选择了基于ELK构建的日志平台作为验证Mesos + Docker的切入点，积累相关的开发和运维经验。

图一典型的Mesos + Docker结构（source from google)

首先容器化的是Logstash和Kibana，Kibana本身作为ElasticSearch的数据聚合展示层，自身就是无状态化的，Logstash对SIGTERM有专门的处理，docker stop的时候可以从容处理完队列中的消息再退出。而ElasticSearch部署在Mesos集群外，主要考虑到数据持久化的问题以及资源消耗。采用Marathon和Chronos调度Logstash和Kibana，以及相关的监控、统计和日志容器。

图二日志平台的结构

数据来自多种方式，针对不同的日志类型，采取不同的发送策略。系统日志，比如mail.log、sudo.log、dmesg等通过rsyslog发送。业务日志采用flume，容器日志则使用heka和fluentd。汇总到各个机房的Kafka集群后，粗略的解析后汇总到中央Kafka，再通过Logstash集群解析后存入ElasticSearch。同时，监控数据通过statsd发送到内部的监控平台，便于后续的通知和报警。

随着业务线日志的逐步接入，这个平台已经增长成为单日处理60亿条日志/6TB数据的庞大平台。

最初我们使用的Docker版本是1.6，docker attach接口存在内存泄露，容器的stdout输出较多日志时，比较容易造成daemon的OOM。

这个问题是比较严重的，daemon挂掉后容器跟着都宕机了，虽说上层的Marathon会重新部署应用，但是频率较高的话容易造成集群不稳定。

首先想到的办法就是用runsv启动daemon，保证进程宕掉后可以重新被拉起。其次，参考了Kubernetes的做法，在daemon启动后修改oom_adj的值为-15，防止daemon被最先kill掉。

最治标的办法还是升级Docker的版本，或者自己patch这个bug（https://github.com/docker/docker/issues/9139）。

DockerEventInput使用的go-dockerclient有bug，heka异常推出后不会关闭socket，容易导致文件句柄泄露，最终导致daemon不再接受任何命令，这个BUG在v0.10.0b1仍然还存在。

相关问题：https://github.com/fsouza/go-dockerclient/issues/202。

同在局域网内，第一次下载镜像也是比较慢的，推荐在slave部署完毕后，主动pull一批常用的镜像，减少第一次启动的时间。这个工作我们放在salt、ansible脚本里自动部署。另外，对于基础监控类的容器，Marathon目前还未支持自动scale，需要自己实现。

相关讨论：https://github.com/mesosphere/marathon/issues/846

升级1.7.1后发现的问题，起因是一个手误导致Marathon的配置没有带上自己的registry，daemon去pull了官方的镜像。这个坑幸好发生在我们的registry准备迁移V2的之前，相关的代码还没有patch到我们自己的docker上，暂时还是使用V1。

相关问题：https://github.com/docker/docker/issues/15724

资源抢占是在Mesos 0.23.0版本引入的，官方还不建议在生产环境使用，如何有效的抢占资源一直是我们在使用过程中比较关注的。

Mesos的资源是直接映射到role上的，我们以此为切入点，提前划分多个role，每个role分配静态资源。比如，ops的role运行基础服务，每个slave上最多占用4个CPU，logstash则在每台机器上可以占用32个CPU，以这种方式变相超售CPU资源。

在使用时，不再根据容器的资源使用情况动态调整实例数量，而是交替发布任务抢占CPU。比如凌晨2点至6点是业务低峰，日志量少，许多logstash容器并未满负荷工作，正适合发布Spark的job。这种调度方式实现简单，基于时间调度，更容易监控。

缺点也是显而易见的，需要提前规划role，尽量对每种资源消耗大户都分配到一个对应的role，扩展性较差，适合上层应用较稳定的系统。等MESOS-3791合并后，就可以动态的管理role，那么Mesos的资源的管理就会更加灵活了。

主要是Mesos、Docker的版本升级，由于众所周知的原因，Docker的升级是比较痛苦的，需要停止所有的容器后再升级daemon。我们的线上环境经历了Mesos 0.22.0到0.25.0，Docker 1.4.1到1.7.1的演进，总结出了一套比较有效的升级策略，上层服务无感知。首先Mesos要开启白名单（--whitelist）功能：

1) 先将要升级的机器踢出白名单，这一步保证了上层的Framework在收到statusUpdate不会调度到这台机器上；

2) 然后逐个stop容器，容器内的应用建议处理SIGTERM信号做清理工作；

3) 接着停止docker daemon和mesos slave；

4) 升级docker和mesos版本；

5) 重启docker和mesos并将机器重新加入到白名单。

有了日志平台的经验，我们的工作中心开始向实际需求倾斜，尽快满足业务线的环境要求。共经历了三次比较大的变更，主要从兼容性，公司内的发布流程和开发人员易用性的角度考量，逐步演进：

1) OpenStack + nova-docker + VLAN

2) Mesos + Marathon + Docker(--net=host) + 随机端口

3) Mesos + Marathon + Docker + Calico

容器的使用和行为尽量模拟虚拟机是我们第一阶段考虑的重点，同时还要考虑到发布系统改造的成本，OpenStack提供的nova-docker自然成了首选。再此基础上，为容器提供外部可访问的独立IP（VLAN）。nova-docker和nova-network已经提供了大部分功能，整合的速度也比较快。

容器启动后会有多个进程，比如salt-minion和sshd，这样使用者可以ssh到容器内debug，而部署的工作则交给salt统一管理。

逐渐强化以服务为核心的应用发布和管理流程，向统一的服务树靠拢。在第一阶段的成果的基础上，完善服务树的结构和规则，为后面打通监控树，应用树等模块做好充分的准备。