2020年今天在西洋社区在2022年路上进行一个化体项目过去的话一会我们可以先去展开来看一下我看到相关的一些特性我们可以稍微等一下可以了可以了是吧但是这个给别人看一下刚才没拍嗯再来讲这样吃的可以了不好意思啊首先是其实现在是一个数据爆炸的一个球呆然后也是随着我们这种技术的同步发展就对于大数据还有人工智能其实其实在我们各行各业也有生物的应用特别是对于金融场景我们对于这种大数据人工智能应用的更为广泛和深度那么第二点就是对于我们传统的大数据平台也是在随着原生的技术的不断发展的完善其实也是慢慢的在做原生化的一种改造那在这种传统大数据平台进原生化改造的过程中其实对于我们常用的这种大数据和AI等平常计算的一些场景其实还是面临的一些挑战主要就是主要这一下就适量所以第一个作业管理方面其实我们原生更多的是据套的一个调整和管理那么对于我们大数据行观的这种作业的就是生命周期的一个管理和任务依赖这方面其实是不够完善的然后第二点就是调度策略调度策略的话大数据常用的比如Galaxy Gallery还有Fascia等相关的一些高级调度策略包括Rissaucio Warsons这种Baggerfail还有CPU Turbo等这些都是我们大数据常用的一些调度功能那这些调度策略其实本次我们这些千亿的原生也是有一定的局限和缺失第三点就是对于鱼炮炸的一个支持支持能力我们现在其实在一个大数据平台用的其他框架其实比较丰富的罗斯巴克、Fling还有拜托斯我们看MPI的相关的各种框架在这些框架呢其实在原生里面是通过Fridder的方式就不属于维护那么每一种都引入的话对于我们英文里面的要求所谓相对来说很高然后并且不同的其实框架就作为管理的平台据探要求其实也是不同的而这四点对于我们资源的维护化其实在不管对列管理还是集权的动态维护化资源附用方面其实对于大数据平台对这些要求还是比较高的也是基于这几点挑战就是后面的话就是创建了我看到这么一个项目就是单元项目我们刚有介绍我看到的一个项目概括我们可以看一下当前我看到这个架架图先从左边那个架架图后面可以看到下面标红的就是首先是照报照不服了这个时候我看到提供了一个统一的作业管理的一个抽象包括我们刚刚提到了机商方架 海套子MPI和TankFlow这种机商方架都可以通过一个照报的方式去管理那么用户就不用通过多个回带的方式去组个运维或者说部署这种方式第二个的话就是照不服了这个也是社区目前在复发的一个指向就是据我看到的一个工作轻量化的工作流变換引擎这个应该会在今天上半年发布这个功能然后改修一下的小伙伴也可以关注一下关于堆裂这个Q这一块这一块其实是做西利股的一个治疗管理合法分包括提供的治疗预留然后容量管理还就是多中复之间的一个动态治疗共享 共享能力搭上网上的话是control这个是管理我们第一治疗的一个中台还有就是后面的话就是改掉了这个就是我们的一个核心调度算法的人实现的一个组件包括我们提到的就是公平调度任务夺谱还有就是抢占回填横度等都在skill的这个组件里面去实现那么其实水质水质需求的不大变化还有就用户的我们昨天发现其用户也是因为我们这种多级群的管理诉求越来越高那么我看到的话也是逐渐由单级群的就是内部的一个批量调舞能力逐渐往多级群去演技演技的话就是我们可以看到上面就是通过附画一个我看到Global的一个指向那么拥护它其实拥护的使用习惯跟现在是没有特别大的距离也是跟使用单级群是一个道理那么通过我看到Global我们会对拥护的一个作业请求做了一个分发文化的不同的纸巾群那么纸巾群的再有纸巾群的我看到去做详细的调舞我们可以看一下下面这个图可能更详细一点就包括这块关于多级群其实发展还是其实发展已经很久了我看到Global重点关注的是bass里有的调舞对于多级群管理方面我看到Global也就是想借用也是借用社区的纪有的多级群多级管理能力去实现的多级管理那么在此基础之上去重点发展调舞相关的一些特有能力关键制我看到Global的一个关键特性其实刚刚有提到一个分体调舞这一块也是能保证我们的调舞性另外一个专户就是在Global这块提供一个多组互公平调舞那么用户也是相当于对于多个人互体调比你体调作业那么可以达到用户之间的一个公平第三点会增加一个层门感知能力因为随着我们越来越多的去用公有群那么我们在幼场景中其实用到的不只是一家公园有可能是多个公园级群那么这个时候其实成本也是我们关注的一个重点那么我怎么在同样的业务资源情侣的情况下将我的资源调入到一个低成本的级群里面来的其实还是非常有意义的一件事情这个的话这个特性是目前在原型的验证中也是今年上半年预计会发布一个二法版本如果这的话兴趣的小伙伴们可以持续关注看到社区的一个进展和动态这个是我看到的一个使用方法可以讲来看一下我看到的话其实主要是部署在第八级群部署之后首先左边有佩泽文店佩泽文店这块是一个就是包括两部份英式X、英式Pla.1我看到是支持X和Pla.1去动来擦拔的英式X这里面主要几个行业就是首先是第一个人数对立就是我这个任务是否调入对立后面的话就是Nucleum parameter就是抢占相关的能力后面就是分配和回填那么这一个的话默认是没有Nucleum parameter然后用户可以根据自己的实际我需要去定制定价下面是对于这种Pla.1其实每个Pla.1都会使用一种调入策略的能力那么也是基于这些所有的Pla.1最终做的一个打分来选择我们调入的揽开阶点是最有选择这个是一个配置问题另外的话就是后面这个就是我看到我看到照博的一个实力这里面还需要就是重点就是我们上面有做过的一个任务就是大概这么一个形式重点关注几个点首先第一个就是没有完了这个就是定义的一个我们一个作业最小的复杆数也是我们用的比较常见的第二个的话就是调入区的名字是改调任务看到的其实除了这两点其他的给我们平常的用法其实没有特别大的距离那么其实刚刚我们介绍的一个使用方法我们可以看样子看到内部的一个实现机制其实通过我刚刚的配置面我们就能发现了就是最左边在我看到在app稍后里面的一个定义就有一个座碗然后它会包含一个泡的部落就一组泡的下面就是泡的一个情况那么网约的话通过在真正的调入过程中我们可以看到一个座碗在open session的时候就我们在调入轮运中期在一个open session的过程中就加过我们在刚刚配置的文页所配置的plug in注册到我们这个open session里面来每个plug in其实我们有抽象通用的这些回调函数就是每个plug in可以根据自己的幼邮预去实现这个回调函数里面的功能和能力那么只需要反正给我一个结果在open session之后open session把所有plug in注册进来之后下面会通过我们配置的action去逐步执行我们的调入邮预和流程包括我们看到的入类页分配 抢占 回收这样回收 还有回填的这样一来调到多去完成之后就能够对我们的plug找到适合它的一个弄的阶级这样的话我们可以通过两个用户的一个应用场景去展开看一下我们有看到的一些特性在这里面的一些使用方法的应用首先这一的是荷兰安技银行他们大学区平台银行送货改造里的安利安技银行其实是全球排名前列的资产管理公司服务的话给你四十多个国家它的主要业务就是银行保险资产管理有相关的一些业务方向左边这块上面是他们大数据的上面这块是一个大数据的一个架构的一个盖放而下面的话其实这块是它的一个清理过程首先他们在八年19年的时候其实那个时候就有在考虑运营商化的一个底座底座的话但是最初的时候只能去签议的一些通用服务也就是我们左下角看到的就是通过k8s机群来管理我们常规的通用的服务通过k8s机续管理大数据业务那么这个时候就会加整个机群的资源所以就进它的划分进到划分之后咱们其实是互相隔离的是不能互相通用或共享这种资源能力的这是一个就是机群资源利用率其实没有办法得到很大的一个提升第二点的话就是在这种两个系统的一个调入情况下其实他们要在上层业务封装一个整体的一个抽象的调入能力那么在这种情况下就会发现以入了很多管理和运用方面的一个复达度也是基于这个原因其实想做的就是通过统一的平台来做这种常规服务大数据业务还有就是交付收入相关的这些统一的一个调入管理一个是减少运为的复达度另外一点呢就是对于整个机群统一资源职之后对我们整个机群的一种资源利用率的提升比较有拿帮助的就是我们预判里面看到这个图从哈多普一直签到整个迁移到T8S加于源源生存储这个方向那么在这个过程中我们刚刚提到的就是对于这种平台计算处遇到一些挑战其实也是在它们迁移过程中也都足够都遇到那么这种解决的时候其实通过T8S下午刊登可以调入整个随时公路复达然后对于这种Q的动态支援功效还有一篇机抢占DRF能够满足拥护在大数据业务放在源源生平台下来的调入能力我们可以展开看一下就是Q还有动态支援功效这块具体的能力稍后我们可以展开看一下对这就是我们刚提到的就是它的一个T8S下降就是我们左下角这种静态支援划分持着一种调入线做还有就是右面的话就是T8S加午刊登统一支援持着一个调入线做我们可以看一下这块前两条其实是对于银行业务的话其实它存在一定的业务的潮汐性比如说我们在工作时间其实常规服务还是还有交付式服务是比较批办的那么在于非工作时间由夜晚或者周末的时间那这个时候是没有交付式服务的更多的是我们这种明显分析的业务那么在前两条也就是继续整个低负带的整理下其实左边T8S加2T8S支援持续是非常空闲的但这个时候大数据业务其实是没有办法去借用或者说去运行这种大数据业务的右面的话零据业务之后T8S在我看到其实在通用服务支援使用不是这么高的情况下其实可以动态把这种据业借用给大数据业务来提升我们整体的集群支援利用率下面这两条们其实在集群高负债的场景下其实高负债的场景下不管是对于通用服务还对于大数据业务其实大家的支援都非常紧张但这个时候就需要考虑就需要考虑我们这个什么保证我们既有画面的资源得到保证比如说我既有画面给通用服务的资源是50%对吧这个时候我一定要在今天支援紧张的场我要保证拿到50%才可以那么左边的话T8S在这其实这个是近点画面所以说原本是没有任何问题的右边的动态画面这块就觉得有点方式其实你可以我看到通过对列的这种方式来保证我各类资源的资源配合所以说在经过综合这方面的一个评比和能力之后其实也是能够达到既然有我们原有这个资源配合化分的能力又能提高我们整体集群的资源利用率我们可以看一下刚刚提到的这个资源工厢Q的定义其实Q的话它是集群集结的一个资源配项予用户而能够达到这个结果的当然Q也是在我们传统大数据它一个非常典型的一个概念那么我看到的话也是这样这个概念就签议到我们引用到我们原生这个平台上面来然后用户在提交上面提交这个作业的时候可以归属于一个指间的一个对列那么这个对列你可以是应设一个用户也可以应设一个用户组那么也就像我们对应的多组户其实可以对应不同的对列那么不同的对列之间是可以做到这种任务的一个公平调度大概是这个过程那么我们可以看一下对于对列的一个动态资源共享的一个逻辑和能力对列的话能刚刚有提到它可以通过微的值来划分我们刚刚提到就可以做不同对列之间的一个资源配合的划分那么它的划分呢其实通过微的值来进行调整比如说我们当年这个业务集群有六合的一个资源假如说有六合资源有两个对列一个对列第二对列那么它的微的值分别是二分一那这种情况下的话我们对列一所应得的资源应该是三分二不适合CPU资源那对列二所得的应得的资源就是两合CPU资源在这种情况下如果说我们对列二没有诱惑去提交回运气的情况下我对列一申请了六合CPU这个时候对列一是可以把整个集群的资源全部占用的然后当我对列二有了一个作业计较需要用到我原本应得的两合CPU资源的情况下这个时候其实就是我看到就会通过我们刚刚说的Ringlaim的插件Ringlaim的Action它会将对列二应得的资源做一个回收如果这个资源再被对列一使用的过程中那么它会做一个抢占承担之后这样能保证我在当层对列有作业计较的时候我能拿到我应得的资源如果我当层对列没有作业运气的话那我这个资源可以贡献出来然后让整个集群去共享这个的话就是我按照其实在Ringlaim它签议的时候它们更多的要是上台要用Spark那么在Spark过程中Spark的Ringlaim的握住中其实在KBAR的市场也是有一些资源规划还有就是之前也遇到过一些问题比如说对于Spark的作业比如说Spark作业的Zero,Q,Pout那这种Pout的话有可能我在并行提交多个Spark作业的时候那么多个作业如果都是Zero,Pout运进起来了但是我对于Q和Pout都没有运气所以有可能会造成多个作业之间的一个盲等和失守这种问题在资源紧张的情况下那么我看到在这个方面的一个就是作业的一个处理是什么呢就是对于Spark作业我看到听从Pout的博物这么一个概念我允许一个Spark作业的话会对于一个Pout的博物包括它的ZeroPoutAQ的Pout所需要的整体的一个每日上市最小资源量会在这个Pout的博物就把这一个设计那么在调舞这个Spark作业的时候会先判断集群市保有满足当前Pout的博物最小资源需求的一个资源如果有那么就会把这个资源做一个锁定然后用于当前Spark作业的一个调舞如果说当前资源不能够满足整个这种Spark作业的最小资源诉求的话那么这个Spark作业整体的不管说二号的二号的都不会去调舞这样就可以解决掉我们不同作业之间的一个失守问题这是Spark我看到在Spark上Pout的一个运动也就是上一年了我看到其实成为SparkPout是首个败词调舞器整个调舞性能的话是可以达到每秒是一千万的跑一个品量调舞能力这个是就是SparkPout是具有看到的一个用法Spark上面的提交Spark作业的话我们可以看到大概形式是这样然后标红的这部分是加入我看到之后用户需要配置或者说需要关注的一些地方首先第一个就是调舞器的名字指定我看到可以了第二的话就是Face is down第三个的话就是我们刚才提到的Pout Group的一个定义就是在这里面其实用户可以根据实际的要务情况去定义我们这个Pout Group或者我们这个Spark作业需要的准小支援量另外也可以指定我们作业的一个优先级另外整体集群里面我们在并停调舞的时候也想到优先级去排序和抢占第二个用户案例的话就是内天投资进入我看到的一个分布斯计算平台其实内天的话主要是一个进入投资公司业务场景主要是为主要是一些策略研究AIR训练 推理还有临陷匹处理的任务我们这么说左边那个家伙图就是可以看到底层的话基于Face在指导原生救助设施而上层对于一些中业应用再往上一个是用户的这种机器学习还有打数据行为的那些业务那么在利息的过程中其实客户的诉求也是希望调舞系统能够提供一种公平的机制满足公司内多个团队之间的一个资源贡献并且能保证各个团队内资深的一个业务的SWA第二的话就是提供钢磁盖的这种解决策略 解决基本的实手问题下面的话就是由我们调舞系统需要能统一支持我们这种AI打数据这种这种收用者这种气场宽假那么在这个过程中我看到其实通过刚我们抽象的这个我看到照画其实是能够满足我们上层通用的几乎主流所有的居然发现了一种支持第二的话就是我们通过对列的方式来提供公平调舞的策略稍后我们可以看一下这种公平调舞的一个相机展开这的话就是公平调舞的一个大概模式首先公平调舞其实有两个层面应该三个层面第一个的话就是照不见了一个资源共产照不见是一个公平我们可以从上面这个可以看到第一条件可以看到就是并列一里面有两个用户分别提交了两个照画那么每个照画其实它指定的副本副本数其实是不同的那么站的场景下在大家不区分这种照画或者说用户的情况下那可能我提交的照画比较多我提交的副本数比较多那么调得下来我可能所占益概率轮到我的轮到我的概率更大那我调得我的副本又会更多但实际用户场景它就是用户最强的就是我两个用户提交这种作业我可以拿到公平的这点这个对列里面就两个资源那么我提交了一个需要两个副本另外也需要六个副本但是我希望大家能够公平大家更拿一个随这么情况下是可以实现我看到可以从这种公平调度来实现这种照不见的一个公平能力这第一第二点的话就是不同的那么spec之间其实也支持这种公平调度比如说对列二来说我们那么spec二提交了一个照三然后那么spec三呢可能是另外的幼稚团队然后提交了多个照本照四周五 照六可能都有那这种情况下我们希望还是大家不同团队之间是可以公平辜险这个对列能力的所以这方面也是实现这种公平能力第三点的话就是对列之间的一个公平我对列第一对列第一有多少资源对列二有多少资源至于他们之间通过他们的就是英德资源量和当期以申请资源量做了一个三二级的游击算其实不同对列之间也能达到他们之前的一个公平调度长这一点就是关于我们刚刚提到的SRA避免大作业饿死其实在大作业临小作业共存的时候经常会遇到一个问题我们大作业调得下去但形成里面的资源版就不了大作业的运行就导致我的大作业一直在等但是集权又持续不断的在提交小作业那我这个大作业就可能一直在等最终就会导致我的大作业饿死这种这么一个问题在这种场景下呢其实我看到其实经过SRA这种Planin它主要的一个能力就是通过SRA这个位置可以用到自己指定如果指定的话是一小时那么超过一小时这个作业超过一小时还没有被调过的话系统会给这个作业预留资源相当于系统会把当前如果这个大作业需要的适合资源但当中系统只有两颗那么超过一小时之后系统会把这两颗资源作业应该提前锁定留给这个大作业直到其他的作业逐渐把资源释放集群到所有的资源能满足这个大作业的运行的时候大作业运行然后随后再把其他作业扑干了去打起这样通过这种SRA的这种Planin其实可以达到一种防止大作业饿死的一个能力除了我们刚刚提到上海其实这块调度上海是比较丰富的然后大家可以根据自己的业务场地去定制和评配都是可以的除了我们社区提供的这种调度上海之外其实我们也提供了这种拥护困难开发的这种放量和能力拥护也可以基于自己的业务去简洁快速地开发满这一业务的这种插件这种插件后续也可以如果说是大家通过的那种能力可以跟社区交友可以一起来反馈到社区然后大家一起来贡献这种调度插件这边是我看到社区的一个发展就是发展现状左边的话主要是我们社区的一些拥护势力大概是中外拥护现在是50多家吧这块没有放这块没有我们没有放全然后另外的话就是右边是我们社区贡献者的一个状态包括华为博云还有百度等多家厂商其实在今年其实在社区大家都还是比较火月的贡献度也是比较大的之后是加入社区的一个方式社区是我们可以通过右面的公众号一个是融情模仿的公众号这个的话会有云原声相关的一些知识分享大家感兴趣可以关注一下第二的话就是社区小厨所的微信大家可以听见他微信然后告诉他我看到社区这样的话他会把大家拉到我看到社区微信交流群大家可以一起交流我今天的分享主要就是这些看大家对于这块也有一些需要交流讨论的点我可以再开看一下没有同学对于那个就是我们整个大数据又还想整体签一过来那么明了明白就是其实大数据的话我们刚看那个安逸安逸也好他们的用力他们的安逸他们其实就是对于整个从哈多普的样子就是调度系统到哈多普的SDF还是整个文件系统其实他们都在往云原声上面去反显而且从在上年从在互报帕人们的互报帕有分享分享的话是目前是已经落地了关于调度的方面其实我看到是可以覆盖到我们样子目前所使用的同路的一些成分能力关于我们在SDF还是这个的话需要有那个云原声那一块云原声的话我不是特别擅长但我理解它那块是有一个解决方案的那么我们可以下来也可以去找存储云原声存储那块的专家可以一起交流一下做块的一个详细方案另外还有就是中间电中间电据我了解卡布卡还有这个中间其实已经有了就用了云原声的一些解决方案就在目前的云原声上是可以正常运行或者说正常提供我们之中达水平台能力的那么对于我们关心的这一块就是我理解整个方案其实目前在各个方向都有对应了几个方案我们只需要让它拿过来组合在一起达到我们整个业务签议的一种技术能力大概是这样的然后最后我们可以加一下温性到时候可以拉个旋对应的人我们可以一起来讨论一下我听了你刚才我看到那个分享我看就是它是基于一个任务的然后呢就是基本上我听的方向是说每个任务一个容器一个号照那块的东西多个那这样的话就是说那会不会有点浪费资源特别是在大队过的人对感谢各位同学其实这个是这样的就是一个照顾里面它的副本跟我们这个时候diploment的副本其实不是同一个类型那么diploment是做多个副本之间一个种鱼或者说是虎背然后这个照顾里面它各个task其实是独立计算的是跟着我们Mapridius或者说那种分发其实每一个套的我们在作用里面叫task也就是直线任务它每一个套的是独立去运算运算之后将这个整个的结果去归众这种情况其实是就是相当于是大家给评论的其实没有这种重复或者说是铺背这种情况所以对于整个资源的情况也是没有这种考虑到这种鱼啊没有那种资源浪费的情况补充一下就是那我刚才听您最后说那个公平那个公平竞争令那就是说比如说我可能有的任务需要消耗资源表递有的任务需要消耗资源表递我发现就是其实好像并不太公平对其实这个它的公平有多种角度就是一种的话这是从用户的角度我要做到各个用户之间是公平的另外一种就是从作业的角度然后我各个作业之间是公平的那么我们更多的是用户比如说我一个用户提交一个作业那我需要保证不同的用户之间他们是公平的共享这个对立里面的资源那么所以在这种情况下比如说你占用的资源表途那你那整个集群资源是不是都被你占用了大家在紧张的特别是资源紧张的那种情况下那可能一个人就把整个集群所有资源都说出其他人也在提交任务就要提交不上去了这样的用户来讲也不是一个特别友好的方式所以就于这里来说的用户之间一个作业公平OK 大家提问很踊跃因为我们这个讲师刚才讲的比较快那么就多给你这个提问的机会那么这应该是最后一个问题好 我再问你一个问题刚才我看您提到过大作业小作业我想问一下我Kinos根据那个根据动态判断和近代判断的因为很多大作业是跑起来才受了小合作业时间耗费多少资源我想照片我Kinos可能有什么判断的如果要提前吃到了大作业这个在39的话实际上我听到的优势有一种可变成的解决我听到的优势在哪里我确认一下就是对于我们这个首先第一个问题就是我们这种大作业小作业它的一个是动态的还是静态的这个的话是首先是一个静态的就是我们在提交这个作业的时候我们是有一个request的资源我这个作业需要多少CPU 保安率水能多少GPU对吧我需要多少资源那么如果期许能满足这个资源的话我们就往台调这是最通常的一个用法如果期许不满足那么就会等然后R3U它主要解决的就是我这个作业其实在整个期许里面如果不提交其他作业任务的话大概过个一两个钟这个大作业是能够满足这个大作业资源运行的它是可以这么运行这什么有问题的但是这个问题有持续不断的小作业在提交而且导致我这个资源零件子一直达不到一直达不到这我们其实大家想的就是我们大作业尽快地运行好了之后可以把整个期许资源释放出来也不是大作业饿死这种情况这也是基于这种场景去考虑除了一个AsiRadi的插件来保证这种超过一定的实现之后或这个继续资源可以给这个大作业就一定的预留这种方式对用户使用起来其实应该是能够更友好一起主要是继续这点考虑OK那我们的时间问题有那么的提问就到这里大家可以对我小描这个我看到他的交易群那我们感谢一下汪洋老师的精彩人家谢谢