那我就开始了时间挺晚的我尽量不耽误大家吃中午饭首先介绍一下我自己我目前场最有名的投席是原来是喝酒星日小组的创始人然后包括那个什么菜术马上也今天参会的几个都是那个我们的那个沟通创始人以前是个马拉松爱好者现在这个身材应该不行了然后呢之前写过写过些书可能在说我不知道有没有我都知道库柏奈特斯权利之南有有好几个然后反正之前有很多然后现在呢是华语人的SIE工程师基本上讲是给这个因为工程师做工具的这样一个角色然后到我的那个不能号叫伟家工师因为我一直就在做有几个所谓家国的工作但是也经常不知道是在套理在干什么那那言论庄传啊我们今天要要讲的东西呢其实有一部分是我们在那个华语的那个实现然后有一部分呢是我自己的一些这个干部吧然后技术内技术内容不是很强主要是一些思考上的东西那讲的是就是从一个系统开始就前面一阵子那个MQ有一篇报然后从这个开始讲然后讲一下我认为的这个所谓平台工程的这个概念是什么一块事然后呢这个然后回到手提就是集群多还是多集群那这个事情呢其实是以前以前我有一个朋友我们在聊大数据的时候他说很多地方的这个所谓大数据啊其实是假的这个叫数据大他可能有这个几T甚至几P的数据但是杂乱无常然后反正就是说每次都是到了这个百八十个数据里面找找找找找完了之后导致一个颜色就把事发吧这个叫数据大还是大数据那我觉得刚才我们讲了半天呢也是多集群还是集群多我们怎么来做管理然后最后再一些显化那首先呢就是这个是那个MQ的以前那个报告我自己死平台公众才是未来那这里面简单说呢就是说今天本身的开头奖是什么呢开发者并不想做运为因为公众是很累他不仅要写代码还要运行他们编写的这个代码然后这样的话实际上说我们正常来讲一个人的那个一个人之时体系他肯定是有一个偏重的你不可能是一个真正的这个六别统战士然后呢所以呢按照这个人类的这个思维来说呢你肯定是说在你的这个场数多发展会更好然后第二个呢是这个反模式这个我想在场有很多是那个团队里面的武干那我们我们这些武干公众是在团队里面经常会变成一个这个变成一个这个高级打砸工就是说预言写的代码一定要带着人然后呢尤其是在这个在这个谁开发谁运为的这种金融理论的指导项呢要说我们我们其实有很多人可能没有这么多的技能那都需要我们的这个这个武干公众师来来那个帮他们带他们来一起干活那这样的话实际上就是说让这个高级工是没有办法做他最擅长的这个高级的事情然后呢预言为工作呢其实我们现在经常讲的其实很多时候呢都是集中在CIC这边但是呢实际上这个预言预言团队是非常多的包括这个配置啊依赖啊换环境啊完全换空啊这些东西其实都是运为了非常重要的内容那这些东西的话就简单把名字列出来我想就很多所谓那个全占公司啊因为现在的全占的这个这个深度是深度和广播非常大就是很难覆盖然后呢这几年其实就是说我们的这个这个谁开发谁运为的这一个东西的这个内涵就非常的宽广然后呢就是说巫狗或者WOS然后这些先进的组织来说呢他们实现这个东西简单说就是说这个水平高了或者说它的平均工程师的平均素质比较高他们是可以完成这种那个高难度操作的但是说对于很多公司来说因为你不是巫狗很简单啊可能就做不到这么完善的一个结果了那这里面呢所以说这个叫平台工程的这个事情那平台工程这里面我们可以看得到这是在哪里要这个奖励这个奖励实际上就是说它这个这个标实际上是说它是一个在那个炒作初期的一个产品但是说它的那个它的那个期待的那个成熟期只有二十五年所以说它应该是一个技术技术比较好但是现在刚被发现这么一个方向那我们就就说说到底说这个弹幕是这个事儿有有有多烦人所以说首先是这个原生工具的一个恐慌我们这里看到这是那个Sinside这个Lotscape的一个截图那这里面有一千多个卡片然后呢那我们再看这些东西的时候我们想用一个东西的时候这几个随便问几个问题比如说license你都能不能背下来我们常用的大块是七八个这个七八个来自此然后每一种用法如何规避怎么做这个开源义务其实都是有不同的那个要求然后第二个是说做选型你看我们这上面的这个图里面每一个大方块其实它都是一个那个都是一个那个相借或者相同功能的这么一个那个一个叠加那我们比如说拿这个刀跑得慢就这是同类工具我们怎么做比较呢然后呢还有呢比如说这个下面两个记者都升级的问题我用了两年之后用了好好的然后突然发现要升级了比如说有安全楼洞什么这些事情那怎么升级然后就我采用的时候很欢乐然后我摸索了半年把它用得很好然后结果呢到升级的时候垮在这儿了动不了了这怎么办然后这就是这个对于这个原生这个这个热门的这个生态说其实它后面已经已经藏着一些这个团体那原生和其他的开源的这个体系有什么不同呢这个是我在工作中总结上一个事情就是说首先它它不只是一个工具了它是一个生态然后呢它对我们的这个尤其是我们企业的大体环境来说它不再是一个点缀而是一个补干然后它的这个整个它跟生态的它跟我们这个企业的环境的这个这个结合呢是从这个鱼骨模型到双楼圈模型其实这三句话简单讲举一个例子吧比如说它这个生态是非常那个也是非常庞大非常满善的但呢即使这个强大如此呢它到了这个企业的环境里它是要老老实实的按摩就班的就说这条这条主要的这条这个几岁股呢它是实际上是我们的企业企业的主线所有的这个不管你是这个虚拟机还是那个虚拟库按摩就班的分布在这些这些小寺上然后呢但是说如果你想拿这种方式来套到原生的话那你可能有个别的难受应该是什么呢它是自带了它自带了它的这个方法它我经常说的就是说如果说你能够细好那个道克范和那个羊毛的话那么我们为为福十二要送你们差不多你能符合9条它本身它的这个表达它的构建这个东西都是自带体系的所以呢对对CIT对对这个开学生对开学生派对这个原生体系呢一定要是有一个这个有一个这个拥抱和融合的过程而不能说简简单单说把它拿一个工具像装了一个IM这样子就把它就把它用了这个是不现实的而且一定会有些难受然后呢还有一个就是开学软件其实那个我想可能在场很多朋友都试过说在在社交网络里面做一个选项刚才那个刚才的那个最后一个问题其实问的就是选项问题嘛其实成功的采用开学软件是挺困难的一个事情像那个花园的那个开学开学的这个理解是有一个非常非常阳客的流程的像刚才刚才讲的是这个项目健康这个问题所谓多样性呢就是有有多少不同组织不同机构的人再给这个项目做工线这样子的话防止说某一个组织说我不赞助这个项目了这个项目就继续不下去了那有基金会支撑的比如说SINCF或者说看习这样子的那肯定会让你这个项目的这个连续性可能会更好那火月呢就是说它简单说它每个月它有多少PR上去然后如果有一手的话第一个飞机器人的回答是多久然后多久多久之后这个一手能够关掉这都是这个项目健康度的挺简单的行俩第二个呢是合法合规那这里面就是说除了这个本体是不是合法合规刚才讲就是说要连续性或怎么遵守但是呢那它下面的依赖呢依赖怎么办我们现在也有很多叫ASPOM的这个技术就是说用来分析一个人借他的那个他的一个整体成分如何分布每一个成分是不是合法合规然后还有我们这个授权限制比如说最近的这个这个所谓贸易战什么这些东西我们是不是能够我们在国内或者是说在某些其他国家的市场里面用这个人现在是不是这个合规了然后还有一个技术性的问题呢就是说前面前面可能都是社会性的法律性的东西然后这个技术问题呢就是说有很多新兴的工具像我像我以前写我写国中号里面可能我推荐的石油工具里面那边能有一个说能够那个能够一直活下来的这其中其实有一个点就是功能完备就你用的时候你的你足够他的那个主要功能那是非常好的但是呢实际上如果说在长期运行的时候比如说它的稳定性可靠性 安全性这个方面其实经常会有一些问题那个让你无法在生产里面顺利使用还有一回就是说它使用的难度你的那个做运媒的时候你受不受得了比如说像说这个多级群的事情运行这个1000个级群其实装一个级群快5分钟了然后我只要有十几个人头把这个级群装起来就行了但是说这1000个怎么管理的话就什么大问题了然后他什么能不能被分什么这些事情其实像K8S应该是热了很久之后才开始出现它的这个背后工具嘛这其实都是我们在在企业里面采用这个采用这些开论证的时候都会遇到一些实际的困难那所以呢这里面就就那个出现了一个这个其实不太新的一个平台工程它简单来说呢其实说就是说用加一个平台团队然后来做一个这个内部内部平台然后来提高业务导向团队的这个交付速度简单说这里面写的是说它是设计和购建工具店和工作榴的一个学科然后呢平台工程是它的这个它的这个主要工作就是提供一个产品然后来那个移动程去整个生命中期操作需要这些都是其实都是还给你上谷歌百度搜一下都能看得到那我这里面结果我们在那个华语院S1的那个风格过程呢我总结是这样子的平台工程它管理的东西是什么呢一个是三个大的那个质点一个是技术设施一个是工具和API一个是规判那平台工程呢它把那个技术设施管理起来它负责对这个对业务团队的或者说这个业务应用呢技术设施做一个工具工作然后呢它交付这个工具和API给这个研发或者这个其他的这个S1的这个团队呢来方便他们的工作然后还有一个呢就是说它要置立一系列的规分就是说简单说像那个KBS一个项目一个上百个这个元素到底应该怎么玩这些东西是不是你可以随便的那个随便的这里面其实都应该有一些规范再是行的实际上这个东西在没有云原生之前我们所有的大眼的企业应该说都会有自己的各种那个奇奇怪怪的规范那到了科学世界这个东西其实变得那么重要了那我们这几个支点他们的这个作用呢是规范是用来这个置立这个技术设施的然后呢工具呢就是说我们工具是要内饰这些规范这怎么讲呢就是说我们现在的这个技术手段非常丰富所以呢我们认为规范不能是一个TXT它应该是一个可实现文件我们的工具应该天生支持这种东西那正向来说呢我们应该能够生成规范的东西反向来说呢我们应该应该能够block掉这个不规范的东西建造我们的系统然后呢工具和API同时也会这个对这个技术设施进行隔离和抽象那这样的话就说有这个有整个的一个这个一个大平台来那个来完成对整个这个埃及社会这么一个支持然后这个这就回到说这个集群多埃特集群的问题了实际上说这个多集群这里面的话我们在那个实际上有很多公司的那个集群其实就是业务那儿他自己在玩的那这样这样情况呢就我称为这个集群多的情况他的情况就说简单这么几点银行水平建设思路保障目的都有不同然后呢不同的团队呢也是说这个用法也是这个花发门的还有一个呢团队之间的支持技能它不好共享就有可能产生一个快的越来越快然后慢的越来越慢就是说我为什么要上这条集群加一种这个疑惑然后那个重复建设和这个步调混乱就是说可能说一团队说我今天做了一个特牛的工具分享一下然后一团队说这是我去年玩上下的这种情况其实在那个在这个多组织那个多组织各自委任的情况下非常非常常见比如说像这边画的小头是什么意思呢你看到不同类型的这个用户不同水平的用户它其实它把K8S的时候是完全不一样的比如说像的这个小男人他可能会比较出极我用CSD能把东西打到K8S集群上我就赢了我就已经原原声化了对吧然后主要讲这个我搞定了调度我甚至还能伸缩囤间控那我觉得我达到了原有的原有的这个虚拟化的这个原来水平然后右上角这个呢那它可能用了更多的高级特性比如说策略管理比如说EPFFOR还有一些空高级的FLABOR的这种这个自动的自动的挥动啊什么这样的能力很明显如果说一个公司有三个有三个这样子的团队它的这个它的这个集群一定是那个差异会非常大所以呢我们我现在我现在在法律研究所做的这个参与的这个工作者就是有一个叫Castoff的这么一个平台然后然后我主要是在在那个搞这里面一个叫managers这么一个东西这个东西其实它不是一个那个不是一个前面说的这个Castonet或者是说Kamada这样的有事情它主要是一个主要专注就是在这个规则的执行方面的这么一些事情然后呢那这里面其实就刚才讲的这个规范是个非常重要的东西这里面就是说我想要说把技术关在笼子里只要说去年一年我差不多补花了大多数时间就是怎么样怎么样让用户别那么自由的使用容器和机器那这里面比如说像刚才说的这个音乐体系的融合那去年我有段时间我的签名是用标签的功能时就是说呢我那个我参与之间的一个一个内部的规范叫做Konates的工作负载和那个Eastel的这个标签这个标签是怎么样那个怎么样结合起来就是说简单说呢还有我们用这个CSD的工具把必要的这些规范内置到不同标签里面去然后呢已经有的这个可观测性体系通过标签的方式和这个原生生态这些融合这个怎么说呢就是说实际上没有Konates之前我们也都有各种这个观测能力但是说有了这个东西之后那我们也不能说原来东西真的就砍掉了你让砍掉的视觉还是技术觉得很难讲对吧所以怎么融合呢我们首先是说这个定了一些这个定了一些标签然后这些东西这些东西呢我们为了不增加这个开发者的负担把这些东西内置到CSD里面根据他的这个比如说比如说他产品输位式或者说各种那个编码把这些东西自动地打到我们的这个羊毛里面去然后再通过这个这样的话呢在这个开发者无感的情况下把它完成一个这个初步的规范化然后呢在伯伦理休斯和这个其他的这个老牌监控之间使用这个一个是大数据的融合另外一个是说这个这个相同机器的标签呢就能够达到一个这个统一统一这个观测的那个效果然后呢第二个是这个这家实践的管理应用那这里面其实说第一个是这个到复发的规范这个我想大家在写当复发的时候如果用那个Basscode的或者是说IDEA的话其实里面都会有先用插件告诉你你这一条写的不好那一条写的那个危险这样子的东西那这些东西我们都可以直接内置到我们的这个CSSD工具里面去然后呢库曼特内斯的这个央摩的规范这个其实就挺难的因为央摩是一个太灵活的东西了这个我是怎么做的呢我从那个我们的这个线网上面拖了大概大概十几兆的那个央摩回来然后呢再写一个脚本就是不停地跑看它每一个元素到底有有多少人在使用然后呢根据这个用法在那个种子从野猪肉干的模式来把它形成最终我们的这个这个规范的权分然后生用模板的方式提供给那个开发者这样子的话开发者只要选就行了你你不要再给我写那些什么物点什么那些东西因为很容易写出事嘛然后之后呢就是说就前面还是讲的有正向前面有正向设计后面再有一个这个互相设计就是说用这个OPATipono啊这些策略的形容来做一些静态的检查和这个动态保障然后然后呢还有一个就是说这个风险控制换控制呢第一个是容器倾向生物秩序管理这个像前一段时间的这个LOCKFARJ的这个漏洞然后像那个像静涛这边一直在写的说隔一段时间我们会有一些这个有一些这个通用的这个漏洞的发泄CLE这些东西那我们对这个静态的生物秩序管理呢实际上是有一个这个长线的那个长线的保障就是说包括我们是不是采用了合理的这个合理的这个这个技术倾向然后技术倾向是不是有问题那然后一段时间之后它是不是过期那这些东西都会有一个持续的这个检测那这些检测如果说发现谁家的倾向有问题啊那我们就把它那个通告一下就是一个一个不好听语词县奇人感是吧然后呢公众量安全呢这一块其实这块其实CNCF有一个白线书大家有兴趣可以看一下简单说就是说保证我构建出来的东西一直到月前的时候它是那个它是安全的没有被创改的这样子的话就防止我们以外引入一些这个奇怪的东西到我们的检测里面去然后呢还有一个这个大难点比如说这个工友员上面的所有的东西它可能尤其是我们做工友员技术设施的话所有东西它都是在多个站点上运行的然后给不同级别的这个用户来服务那我们在更新一个组建的时候更新一个这个工友员服务的时候我们可能发出了AZ或者瑞臣之间它有一个这个逐步回渡的这么一个过程我们称之为进炮那就是说在这个过程之内我们的新版本可能会逐步的向那个全世界的这个不同的这个女人进行发放然后呢还有这个工作负载变更这个风控流程以前的就是训绩的风控流程相对来说是比较失败的但现在原生的话这个这个策略的非常复杂比如说我对一个那个deployment它的那个变更这里面是实际上是几十个那个几十个那个常见的那个人性的常见的风险点我们如何控制它比如说我改英文是如果它的风险是五分的话那我改一个replaycast的那个那个数字它是不是说它风险应该是更高还是更低那这些东西都是需要有一些这个一些这个建设和判断的然后呢还有一个就是说这个能力的标准话那这个标准话呢就是说第一个是说这个环境的标准话建设什么样的节点可以进入到机器里面然后什么这个进入到机器里面的节点发生变化我们要怎么样才能知道这是一个这个这个class的这个环境标准话建设第二是配置管理的标准话那这个就是说我们的这个配置尤其是一些代模型的配置它的这个变化是有一个什么样的机构的管理然后怎么样能保重它的这个它的那个正常运行然后还有一个就是说刚才讲的开软件很多的这个越来越能力它是不完整的比如说那个比如说刚才说到的备份吗或者是说一些那个一些安全方面加固这些东西其实都是需要有这么一个平平台来把它扛起来就是说来负责它的这个开软件的这个可能性的然后还有一个就是说开发S和Esq有应用场景要转化这也是跟我们前的这家实践是那个匹配的就是说我们应该用一个这个不那么自由的方式来给那个开发者服务就就就回到刚才我说的话我就是我就是一直在努力的先行用户的自由然后像这个技术设施管理这一块那我们基本上说把这个传统技术设施管理过程呢转换成一个这个用生命式API这样对象的这样一个管理但是里面你看我们管理所谓技术设施需要挺多的有开发S机讯和Esq这也是大家都知道的下面的讯息机网络中间键那这一些传统的东西我们一般怎么办呢这里面其实我们是要我们是把它这个分而知之的就是说一方面呢是说用那个面涵这个面涵状态的生命式的ICAPI然后那个来把那个技术设施做一个封装另外一种呢还会有一些这个动作型的东西那我们会把它那个尤其是传统建设积累了很多年的这些动作型的东西呢我们把它跟这个EKI并列然后最终用那个Provider或者说是Model的方式呢来把它那个进行一个那个真正的面向那个面涵状态的这个操作能力就是在那个在高层的抽象里面把这个低层的这个动作给它屏蔽起来工具建设呢实际上就是说这个奖励平台里面会要包含什么样的东西呢实际上就是说这里面有从开发这边到这个SICD它的门禁检查构建然后环境怎么对接怎么管理还有这个在IDE里面怎么样来实现一些在IDE里面怎么实现一些这个辅助开发的工作然后呢部署边跟这边刚才讲到的呃配置员工结果建工反馈恢度的恢度是一个极大的工程应该说是不只应该说不能不能简单说是平台工不能解决的这个应该是所有所有朋友面临的最大的这个挑战之一了然后呢越南安全呢就是说包括这个轨道制度建设什么东西必须的两个人做呀就是说这个保泥机啊IC技术的这些运萎啊然后可观测性呢那这个其实就也是个大好题了就是说我们如何像我前面讲的标签那我们如何把那个把这个我们拿到的这个监控告警这些东西迅速的把它跟这个业务联系起来然后怎么样通过这个这种分层告警的方式让那个不同的那个人能够迅速的让他他能够处理的告警因为这个告警这个东西它是一个这个流动的东西你建设的这个告警如果说从来没被触发的话那他就是在空炮如果他那个如果他触发了之后没有人能做事那也这也是一个无效的告警就是所有的告警他应该是能够有一个明确的几个涂度产生的然后呢还有一个就是说这个大数据和专家系统因为我们现在的面临的这个数据的确是那个非常的多所以呢我们一般来说还会有一个那个稍微这个稍微离线一点的一个这个专家系统来支持尤其是对这个前面部署边耿的他的这个边耿结构的结构会来说那我们对这个对播测呀这些事情很多时候是要依赖这种系统来给我们一些这个辅助的然后还有一个就是说刚才我也讲了一个怎么样打通这个蓄力级和原生世界的这个可观的性的这么一个边界然后简单说来说就是说从CISD出发他能够把这个前面的这些这个安全生产软件边耿配着边耿这些东西给那个他的要求的这些技术设施技术特征打到CISD连去然后CISD跟这个运行环境来那个进行沟通来发布我们的应用然后呢持续保障和可观的性和意识关注我们的运行环境来保障这个服务的这个持续可用所以说呢这里面简单说就是嗯先是一个一个死老板就是他就是SRE的当年中台不过最近最近哪里分拆的时候不是又有人说中台已经死了吗所以我我现在没想到这个新的死老板然后接受点点接受点点好我那种讲了那就吃饭去了刚过了OK那我们下午