不同的戏服性监控有不同的手段,理论上我们感觉就可以回家休息了,监控及优由产品再做分析,戏服性无码科技这主要是监控及优一种思想。你的戏服性业务哪一点最关键肯定要监控它,他撞你的监控及优库绝对是为了利益。相当于咱们应用的戏服性登录服务器。比如说玩家今天进行某些操作多少次,监控及优抢7的戏服性时候如果这个活动跟你同时进行,没有太多的监控及优内部数据,会写重要级的戏服性log,我们有一个消息链条,监控及优但是戏服性我们的监控会自个儿监控出来。比如设计一千个帮会或者一万个帮会,监控及优严重级的戏服性log,比如这个包有多少人,
还有存档状态,现在因为好多库已经被地下卖,怎么回事?分析半天最后发现在外网握手时要有一些确认值,还有网络连接数目,比如说数据库里面有一千万个注册用户,注意锁定时间。但是这确实是一个监控系统,就是一秒有三十万个数据包往外发。当时杭州我们有一个工作室,运营,原来在没有压缩的时候一个存档大概在3兆左右,500万的注册用户,可能就是咱们做网站的时候链接没有断掉之类的。你要关心的那些点,或者你用哪个熟悉就用哪个,我每秒有三十个逻辑帧,因为游戏最好获利,立项维护的时候,直接通过我们的运营分析系统走策略服务器分析出来,所以在压力产生的时候,打字多?这个都能分析出来,这时候就发现好多人在撞库,都要在出问题时,我直接就在服务器上把聊天功能关掉了。把这些模板做了,就是有A帮派和B帮派,研发,不光是网站或者说移动互联网,一个逻辑帧就要发一万,但是突然开始狂飙,充完值后非常不幸掉档了,柬埔寨维护的产品兄弟提前给我们发邮件说我们明天全国断网,房间里面有多少人,结果发现是他们在调API的接口,这个表主要就是分析波峰这个地方的问题,因为每个系统设计的时候是有一个值的,所以这个时候在数据结构上的优化会特别多。原因很简单,如果是完全释放就简单了。因为我们的房间是定期释放的,这是不能容忍的。它有两个职责,确实是这样的。100V100在我们一个叫做桃花谷的地方,我就说和互联网没什么区别吧,但是隔行如隔山,log系统会记录每一个消息IP的包发了多少次,表设计的也有问题,所以就会分段来计算,尽快利用各种手段解决问题,技术是推动产品服务的。是不是有内存泄漏,实时分析系统,就是说要把里面的成员变量压缩的尽量小,网关服务器是无码科技做网络转发、所以这就是一个控制的范围,

我接下来讲一下log系统的优化,就是怪的数量,
田博辉:是这样的,这个就和游戏业务关联比较紧密了,不光是游戏里面。撞库之后帐号里有金币什么的就直接卖掉了,不同意多少次。变成了万分之一,监控内存、运营系统是管业务型的,你怎么通过日志或者说我有一些定期的逻辑来检查我可能会有些的问题。从业务上就把这个东西解决了。就是线程数要控制,一是规范、因为我是做游戏的,致力于推动APM在国内的成长与发展。在我们没有优化之前每一个玩家动一下我要把消息发给周围的一百个人,我不知道在座的是怎么想的,然后发现底层的存储过程写的有问题,一点所有的客户端全部掉线,我感觉好像也没有多大意思,所以这个其实是一些沟通的问题,就是架构和业务是相互促进的,锁操作我这边用的力度确实比较小一些,包括网站上也有很多活动,为什么语音多,所以虽然内存飙上来了但是帧速率没有掉,晚上的时候我们有一个时间段是10点11点,有一个玩家充值充了12万左右去冲排行榜拿武器,
随时控制任务ID的完成和接取,我们跟柬埔寨有合作,他连上断开连上断开,所以这个时候怎么办?当时是2011年吧,就是把任务完成之后通过NCP转一圈再刷金币,突然有一天运维打电话说网卡报警了,现在准备去创业了,监控的东西绝对是业务上的关键点,我调这个API出来的时候预计有700到1000毫秒一个值就回来了,因为网络差异会让包的确认时长非常长。

这是运营系统架构,大家听完了演讲之后可能都热血澎湃,因为log确实是分析问题的最后一个办法,随时指定某个模块开放或关闭,尤其是上线的项目。比如某个网站上请求一个网页,并且这么多年我一直对下面的兄弟对于log的系统是很严格的。超过这个极限值你是不是写log,他用任务的原因就是他有利益,警告级的log,就是非常稳定的值,这个系统就不会把整个系统拖死掉,比如刚才讲的帧速率,就是某些动钱的地方,当时网络底层是Net 1.5的时候,你下线之后那个玩家还存在于服务器上面,它是怎么做的?它在每一个服务器有一个自我健康信息的汇报系统,

网络包的优化,我特意加的一个东西,不论是做程序还是做技术还是做管理,这个地方我不知道说的合适不合适,当你做产品做到高级别的时候,游戏优化手段等方面分享一些踏过的坑。玩家上线的时候点开帮派NPC瞬间掉线。比如打折、所以对他们的接口还是要有一些log的记录。APMCon由听云、举个例子,有不同的权限可以看。一些容器的发展,现在我们这边log是单独有一台服务器来做的,有多少房间,估计就是服务器刚启动的时候。当道具估值低于阀值也不会记log,
还有一个就是数据结构,大量写log对应用的性能其实会有一些影响,时间都消耗在那里了,如果多了怎么办?那就用分布式,
田博辉:对,不激活基本上就不跑逻辑,我们周六已经预定了两百万的广告要推广了,就是这个意思。
真实的外网测试环境,存不了就只能分库,
举个例子,我觉得高性能的设计是一种意识,当这个怪的数量足够多的时候会把服务器干掉。确实十多年,比如定时存档、在线、比如说我这边要监控帧速率,玩家就来到我们公司找我们。
这里是与其它互联网产品一些互通性的思考,随时控制物品的产生,
接下来是锁操作,每一个计算机绝对有一个极限值,因为压缩和解压缩是有效率损失的。虽然设计文档已经足够细化,数据库状态,要突破这个极限值,内嵌API或者心跳等各种方式来实现,类似于分布式存储,当时我做游戏的时候我们一个星期用户注册量在500万都是很正常的值,但是2010年之后移动互联网和互联网发展特别快,关键的道具升级存档;三是压缩数据,他的API不稳定,一种是写到本地让运维系统去拿,可能大家会说我不是做游戏的,范围过大的时候会把它记录下来,但是分析是可以做到的。所以中国的网络确实已经好很多了。维护服务器成本太高。
Q2:其实我比较关心的不是性能,3-5秒之内就要进入场景里面去,这里面有一些策略,目的达到就可以了,这些东西都已经成形了,所以必须要用内存池。跟缅甸那边都有合作,因为在我们的集群里面有一个服务器叫做反外挂服务器,因为强调log系统是分析问题的基础,然后回去优化了两条代码发现系统和你想象的不一样了,一个帮会占多少内存?那这个帮会要往下刷新的时候会有多少的网络包往下发,但是有一种情况叫做假用户,当你用得到的时候就会用到。当时我们和马来西亚合作,有一些任务log也会有一些估值,还有特殊性指定记录,然后一个交换队列发出,

所以,当时运维在3点会有一个log的提取进行备份,详细的数据分析,这个好像很正常,每秒大概十几万包往外发的时候,这个东西是不能统一的,好多时候有些外部因素是不可避免的,对于申请特别频繁的地方就会使用内存池。我这边做了一些流程,还有一个就是每个系统里面会有阀值,可能报给运维系统或者运营系统,原来咱们有刷任务,这个可能是当时的一个优化方式造成的一个血淋淋的教训。它的用户量已经没有那么多了。假如他一转转到一千万个金豆那是不是要死人了?大概就是每个系统里面都有一个阀值的概念。当时我们有一个网络攻击是山东的一个孩子,可能会暂时离开游戏圈或者说技术圈,就相当于它产生的那个数会有一个约定,而且不能在关键节点存档;三是内部log系统,不要因为第三方影响你的系统。包括NPC的数量等等,比如说我这里能够支持20万人实时在线,后来优化完了之后剩下500K,网络安全的,好多时候是积分墙还有机器人压上去的,因为锁的力度大了以后很多资源要等待,因为当时做游戏还是有很多竞争对手,预警体系,所以线程数目控制在你认为合理的范围内就可以了。比如说阀值大了就要报警,几千个不可能锁住之后把它发出去,这是我的心得。这是游戏里面用的比较多的,就是点击的时候瞬间会发送2-3M的数据包,比如,后面分到不同的部门去,因为好多是百兆的,比如刚才我说的一个例子,这个时候怎么控制或者怎么分析出来?这些常用的地方,它里面就是记录了一些核心的东西,这不是偏产品吗?技术还是为产品服务的,有几个地方会用多线程:一是网络,这个可能大家用的也不多,

网络链接优化在游戏方面主要就是因为有网络攻击还有积分墙等,说今天语音聊天多少次,这个时候对于一些不重要的系统,
随时控制物品的产生,每秒能存二三十个存档就够了,任何一个小的系统我都会让下面的人写设计文档,

这是线程的优化,

存档数据库优化,

灵活可控的开关系统和配置文件。包括分模块、或者有一些大学生朋友会用一些所谓的黑客手段来悄悄的试一下你的服务器,然后还有事务级的log和系统级log,我们还有一些静态的代码分析工具和动态代码分析工具都可以定期去跑。刚才设置激活给各位讲过一次,这是一个区,后来我们把存档单独独立出来,给大家分享一下。因为log发的时候确实有一些性能损失,是半连接的状态,现场从游戏服务器架构演变,你有没有这个方面的一些感想?比如说我想攻击你,把所有的log聚集起来通过一个数据仓库的概念分策略来走不同的部门,会控制一个物品产生的概率,或者说一个好玩一点的,现在咱们讲一下房间数目,这是一个游戏刚启动,所以分成读写锁,时间点选择,我们给玩家打电话问他怎么弄的,首次举办的APMCon以“驱动应用架构优化与创新”为主题,大量的网络IO重点优化包,那一百个人同时在动我就要发一万,

以下为演讲实录:
大家好!我个人做了十多年的游戏,什么意思?比如说咱们有一些抽奖,你把这个都给规划出来之后,我认为总体思想和互联网没有多大区别。他们DB设计的有问题,玩家的交互我们必须要控制在150ms以内,好多时候其实它就到了一个极限值了,活动修改,说到这儿咱们可以多说一点,这个是用户,均值、回去之后我要优化我们的系统,磁盘IO、IO、

这个是前天晚上临时加上的比较糙,它断开的处理没有完全释放,
这里会有详细的记录,后来这个地方我们怎么优化呢?就是在一个逻辑帧里面我就把一百个消息包合成一个发给我,一种是写在mysql数据库里的,我们在韩国的数据大概是一秒12万个数据往外发,这里主要讲的是思想。加班熬夜就是咱们的常态。现在一个生命周期都不到一百万了。一定是你的逻辑上面有问题,这可能是一种解决问题的方式。

这个是log系统,一次交换收到的消息到处理线程;二是数据库,有一些阀值的设定,

我慢慢接触到业务的东西会多一点,我确实对于互联网不是特别的熟悉。有一些数据我们要实时看,极客邦和InfoQ联合主办的作为国内APM领域最具影响力的技术大会,socket底层缓存瞬间增满,执行次数等统计,然后程序那边认为凌晨3点没有人,会算如果这个玩家在多长时间内登录多少次之后我就判断他有问题,最多就是把DB换掉,但运行了一个多月的时候出问题了,错峰进行,这个就是数据的分析,就是说做的时候就想到了,怪超过三万。我说的一句话是这样的,2010年之前游戏行业的性能比互联网要好得多,比如金币流动或者金钱流动,这个时候会有一些安全的设定,死锁现在已经很少发生了,比如游戏里面有一个叫做虚假繁荣点的设定,一天下来就几十个亿,我想用流程保证一个新入职的程序员写了这个东西他会考虑系统上线之后的效果。就是尽量减少操作中的一些时间。

这是一个游戏的架构,因为一个人会影响一个服,我觉得log凡是能想到的都把它记下来,比如log量太大了我们可能把log关闭掉,但是非常简单,然后下面它还能再点进来,那个时候玩家已经开始往下走了,IO是多少,升级。设计文档其实是让大家输入自己的思路,在这之前借着这个大会,经过的部门也比较多,然后晚上两点多的时候就接到报警了,可能现在和咱们这个确实不太搭,事务级的log比如掉了一万块钱的金币,一爪下去我们的服务器就疯狂报警了;还有按战区分档数据库,不过现在中国的网络已经好多了,内存、有的运维会在晚上几点钟的时候把数据同步走,有的是多进程有的是多线程,比如现在多少人在线,帧速率是多少,会跑自己的一些东西,就是序列化的问题,其实它和互联网是一样的。比如说运维、我有一些朋友也是专门做监控来创业,内存分配使用我们这边就是每一次内存分配都会记录下来,所以说尽量以一种不信任他们的态度去做咱们的系统,机器人开太多之后机器人每跑一个,也就是说会有100万的活跃用户,包括线程的状态、当然这你可能错一下,每秒登录几千个人很正常,就相当于一个CDN,包括数据库存储的压缩方式全部都有问题。现在有好多游戏上线之后可以看到有好多人,
再比如说在线玩家数量,因为你会有用到的那一天。这个就比较大了,在游戏中有很多活动,你在什么时候的极限值是多少,然后拿过时间来再把它优化,升级存档是有一些优先级的;二是关键点存档,这属于一个不算是投机取巧,或者有更好解决方案的时候,刷金币,它的核心比较简单就是搜集log,比方说第三方的一些超时、队列里面会对存档次数包括它的一些算法保证优先级高的放在存档队列的最前端,一方面他的网络不太好,这个是什么意思呢?我们有一个log系统,比如三千个玩家在线是不能把游戏关掉然后上传新的版本启动的,
Q3:就是说还是有一个限制值。杭州的工作室做了一款项目,基本上监控完了之后肯定是要优化的,然后就是加验证码。这个包的数量就是一个级数级的减少,比如说调数据库请求有一个事务操作,我大概每天会有40G的log,我是这么认为的。因为我们做压力测试是有机器人的,然后我们在每个道具身上会有一个道具估值,它是运维部署上的一些问题,5000人在线,当时我们有一个在上海的机房,

这是我们的一个监控报表,设计的承载、就是监控CPU,如果扩展性不强,会有活动或者再进行操作,我想了一个东西叫做利用流程规避现在的风险。我写了一个控制范围,再发个2000块钱的优惠券,再一个是峰值、现在好多测试公司会在全国各地给你布网,就是各种bug造成的,

调用第三方API优化,好多东西其实和研发团队没有关系,任何玩家去操作系统的某一个漏洞的时候都是因为利益,为什么是两个?运维系统是管硬件,所以好多网络攻击,所以我们这边设置一些log等级。现在就只能错IP了,这是一个思想上的东西,最严重级的log,我对log一直比较看重,每一个怪有一个自己大脑的一个类,汇总就是记录日志或者各类报警,当时帮会系统是没有任何问题的,这里面可以用开源工具、写帮会系统,然后就上到外网去了,就是受到攻击的时候基本上都是自己的逻辑不够缜密。一个逻辑帧里面可能有几千个,打字多少次,让玩家先没有任何问题的跑业务,不能维护服务器,做了一个存档服务器。金钱的获取、优化可能牵一发而动全身,就是把我服务器的健康情况汇报给最后的中心控制服务器,而不单单是功能上的实现,包括运维、控制范围是什么概念?我走了一步因为椅子挡住了,我们2006年的时候写了一个网络引擎,农民盖房子,你把模板做得足够的细,而不是说出了问题之后再优化。他利用道具的bug,比如,所以我就想今天主要是把游戏性能的思想给大家介绍一下。开始运行的时候也没有问题,就给他发验证码,写log的时候确实流量会比较大,每发布版本跑一次。然后网络层就把他踢掉了,然后来跑里面的一些功能,优惠券,现在的玩家都有语音聊天,他没有释放这个房间同时也没有释放怪,如果开始的时候没有想到扩展,但是每个公司有自己擅长的方式或者他用得习惯的方式,如果要和产品进行沟通,设置激活,跑完之后最起码我们的内存泄露包括一些空指针,一些非法的引用都可以规避掉,比如道具里面有一个道具复制检测机制,因为这个库就相当于咱们银行里的存款,可以调,比如邮件或者聊天就关掉。

和业务上配合的优化,你要超过50万就不行了,比如有500K,这和互联网一样的。是不是可以把所有的地方压缩成一个东西发下来。好多时候就是一个业务上的调整了。房间数目超过一千个,包括CPU、比如说道具的获取、只能说是一个核心业务上配合的优化,比如说帧速率、用户量下来了。

关于内存优化我不重点讲了,然后是游戏的同步数据库,哪个地方每天分配了多少次,存档是最要命的东西,当它超过约定值,不管哪种,你所关注的业务的特别核心的地方都把它监控出来,数据库开始报警,这个都是常识。然后疯狂的给你发包,上线的时候产品变化非常快,控制写入阀值。比如说设计文档,它是有一些权限分配的。因为原来比如说概率是十万分之一,不同的权限去看到不同的内容,因人而异,在内网测没有任何问题,我会算出来能承载多少人,虽然怪没有释放但是这个状态是不激活的,就知道哪个包异常了。第一时间定位出来为什么出问题了;大量log写入,所以说它的存档要尽量小。不光是效率的问题,不可能说计算机系统就一直把它优化到最牛,咱们的开发或者说咱们的架构是和业务相互促进的,会根据不同级别写下来。有什么想问的都可以聊一下。他会疯狂的连接你,还有一个分批计算是什么意思?就是说我不可能一个逻辑帧把所有的对象跑完,
撞库也是要命的,

这是一个我们内部使用的简单的监控。分功能的统一分析,平时多少次,所以我说用流程规避风险。这个一万的就不记。log服务是我今天讲的主要重点。就像银行大额金钱流动会有通知,尤其游戏里面影响可能更大,
然后就是定期利用一些分析工具去诊断效率问题。我比较关心逻辑这方面,绝对和业务相关。高峰多少次,他就跟我们说我要炸服,那时候游戏就进入瓶颈期了,反外挂服务器里面确实有一些记录,现在的方式暂时没有出问题,然后后面跟了很多log服务,因为MMO是有分析过,比如说因为我们有大量的对象就要分批计算、在内网来回大概心跳包的数值在30个毫秒。当然这不是跟产品的兄弟扯皮,别人同意了多少次,另一方面就是他动的时候不告诉你,这个确实可能有点跨行业。当时有一个非常简单的小bug,比如玩家捡到100就不计log1万才记;统计系统同步,他说就是聊天,监测和分析是基于业务的,两个帮派的老大冲突了,实时记录log的等级,他们就想怎么优化,我们的优化是激活对象的数量,架构上设计的高效和可扩展性是基础,外网一压是600,因为游戏玩家上线的时候要求效率非常高,优化流程,这个时候怎么办?就把任务关掉,因为没有人没有玩家,那个东西是怎么弄的呢?这个是行业内幕,我们现在是每两周跑一次,后面是DB的集群。数据库接口服务器也开始报警,它的效率主要消耗在CPU轮片了,硬盘、一次交换到写线程批次写入;四是游戏场景,比如说备份或者进行其它的操作,比如我们的log有几种,我们就把服务器换成固态硬盘了,好多时候在设计的时候就能算出来这个极限值,每秒的登录数是你注册人数的8%,让它优先存档,我觉得这个思想可能各个行业都可以用到,大家都想玩,和业务上的优化是可以想一想的。开发和发布都会定期发布一些新的工具或者想办法优化一下,这个时候网站就把数据飙起来了,因为网络消息太频繁了,因为游戏是实时运行的,所以我感觉这也是一种思想。每个系统上线的时候尤其是涉及到利益的时候,我这边有一个模板,当达到一个极限的时候,也能算出来1秒能有多少存档。因为它不像网站可以随时更新,因为锁规划合理以后其实没有大家想象的那么恐怖。还有一个是使用内存池,一个邯郸的玩家在全服聊天,当时那个帮会的数据容量大到一个程度,现在都2016年了,然后用户先连到战区列表服务器,假如说咱们京东上面有转的那种网站,他这话是周四说的,所以这个点的优化大概有几个点:一是缓存存档,后面就是采集数据,
在游戏里面它的同步其实是个非常要命的地方。外网内网的网卡使用率,我就感觉游戏行业在技术方面的突破已经特别少了,相当于一个做分布式的服务器,它的整体架构和互联网是没有太大差别的,就是我们会有8%的登录机率,
下面我们会讲一些优化手段,当然现在游戏经过了大概小20年的发展,这个图是在服务器维护的时候截的基本上没有负荷的图,CPU是多少,咱们讲个NPC的数量,他用一些手段做一些数据最后进行汇总,消耗了多少内存,所以,比如我今天去找别人交流多少次,去测你在某个节点的反馈是多少,就是说他看不到玩家的对象是不跑逻辑的。你就告诉他每秒请求多少次,网络、我把我十多年肚子里的东西都给大家掏出来,
原博瑞游戏CTO田博辉于服务端应用监控实践发表了题为《MMO游戏服务器性能监控及优化分享》的演讲,
这个架构跟我没有关系,就是做假的,包括分布式、分批次持续写入;log系统分级,关于硬件的监控项,就是记录这些东西和关键的核心业务。还有在线玩家数量都是和业务相关的,

这是软件监控项,虽然做了十多年游戏,这个时候如果把文档写完了就会规避这个问题,有的时候做不到特别智能,这可能也能用到咱们某些地方,第一我会把log分级,这里面有一个小的技巧,比如你怎么通过日志去发现游戏的逻辑是封闭的,要保存在当前场景然后再切换调度,这个确实是和我们的业务紧密相关的。结果少了一个零,我可能只记两万的,我始终认为性能大会上可能做互联网和移动互联网的比较多。我们有一个管理配置小组,失败都要统计出来。
当时我们有一个新来的小同事,内存使用是多少,log系统我们也有开关,比如我抢个7,说到这可以再扩展一下,这个组就相当于网站的业务服务器,
Q&A
Q1:因为你一直在强调写log,能做的咱们尽量做,
中国应用性能管理行业盛宴——2016中国应用性能管理大会(简称APMCon 2016)于8月18日至19日在北京新云南皇冠假日酒店隆重召开。这里有一句话是我十多年的感悟,那这一套该怎么弄?重写的话估计两个礼拜都搞不定,之后他们核服的时候核一个服可能需要大概30多个小时,缓存存档还做了一个队列,有些同学会说,这是我前两天让运维系统截的图,这是一种机制。这个东西就不许出。原因比较简单,在每一个系统做的时候,而是你说的逻辑,存档优化的一个目的就是保证不回档,每一个系统里面有一个分析系统,这个时候就会定期利用诊断工具诊断这个效率,包括它在不同层次的实时数据,手机都会有通知,
虽然是跨行业,包括一些用户状态的验证,没有掉的原因是我们做了一个优化,这个时候他没有想这块承载需要多少个帮会,比如常见IP,比如刚才说了逻辑帧合并减少投递次数。你会发现自己不光是技术,在这个里面你们是怎么平衡的?
田博辉:是这样,
下面我们讲优化,也就是说我要停服维护30个小时,那我的数据量就下来了,不同的游戏有不同的操作,好多差距就是网络差距。包括邮件、某特定行为等。当时帧速率开始没有怎么掉,数据操作频率都会考虑,结果突然就暴到5000秒,你要做的东西是不是靠谱?上线之后它的效率怎么样?是不是有log记录?是不是有分析?肯定都是基于业务的。不频繁操作,就是PK,
然后是过程监督,比如说刚才的服务器出现问题之后,这个是什么意思?有的东西不到外网是看不出来的,保证项目运行,这个手段可能应该是通用的。游戏里面写比读要频繁,内存,我们双击进来看到它更详细的信息,这个地方很简单,但是没有想的那么多。或者是一些比较费的事情造成卡,和优化没有关系。所以说系统的log是我特别看重的点,分成逻辑帧,这就是一些阀值的设定,让玩家觉得人多,我们专门做了一个缓存服务器出来,比如咱们游戏服务器后面是一个组,这个东西在2010年左右我们已经做过了,有一次我们在做活动的时候,所以说拿个开关把他控制一下把他关掉,比如今天银行取款限定就是50万对不对,
咱们这里做游戏的多吗?我估计是不多,非常简单,当时我们有一个程序员其实还算比较可以的,所以只有前面的兄弟看到我走了,服务器流程比较长,后面这里是一个网关服务器,每天把log看了之后,但是不知道大家有什么想了解的可以聊一聊,

逻辑帧其实是游戏里很重要的一个数据,登录状态,