我先做一下自我介绍吧我名字叫Hong Liu然后我来自IEM然后我们这个team是在IBM内部做这个高性能计算team然后我们最早我们公司叫做Latakom然后在2012年时候被IBM收购了然后我们有十多件密室就在做HPC然后后来做Bread然后CloudVM调度然后现在在着重期的管理今天我这个演讲的题目就叫做下一代的高性能计算以及这个认知计算的流程在Massive基础上从高性的计算到高性的理由今天讲主要按照一下流程吧我首先要介绍一下什么是这个认知计算吧然后再说明一下在当前这个空气化以及原理应态的管理机上对于这些认知计算有哪些挑战最后我们再介绍一下这个IBM认知计算最后呢我还会做一个整个的demo就是在我们的一个帕斯文台上如何运行这些认知计算的模特儿首先第一个就是说明一下这个新的计算类型主带来些挑战就是这个认知计算一样机器学习D-Learning现在已经是一个非常House topic如果你不知道一点的话基本上你在外面跟那些同伙们打交道都太好意思了其实认知计算你相关的技术已经存在了很好好的十年了最早我们在做一星期的时候我们也有这种对于这种石油呀电源器通常就是它也是很需要很大的数据的处理比如说你要做一些病点包括然后根据微生定位来探测你吃过不下石油随着计算机技术的发展这种石油的处理必要的一块这是一方面另外一方面新兴从最早的探测小白说到人类到现在你经常用不再使用这种高兴的计算的机群使用一些商用机器自己打电一个使用人类基因计算的功能还有就是社交媒体这些一切的东西总之随着这些技术的发展还有应用的推广越来越多的应用涉及到了高兴的计算高兴的计算高兴的分析已经不再是以前大区科研领域的东西现在已经变不大每一个人的生活的周围比如说比信仰的一些数据都需要一些计算的功能我这边的一些就是各种容领域也需要从高兴计算高兴分析的这种要求从商业分析从社交媒体还有可能只能like science以及到石油刊探传统的技术案还有七项分析所有这些都需要大量的计算数据计算的性能和数据的处理这边讲到对于各种不同的意义他们自己的特征从最早最主要高兴的计算使用这种分析式的NPR的功能应用还有对数据的处理用些专业的语言的意义有些专业的语言其实并不是分析式的处理我们非常复杂的代码然后也有很复杂的数据意义关系C或C加下来完成了甚至是使用波和计算都比较困难更别提把它分布在或者计算上应用当然也有一些最新的技术发展比如说SPA直接应用然后还有一些进行回过去的算法一系列的东西就说明高兴机场高兴的分析其实所需要的编程模型OK编程模型编程模型会越来越多不单单是单一一种编程模型其实需要的是各种各样类型的workload下面我再以几个典型的势力来说明一下就是当性高兴跟高兴的分析的要求那第一个就是现在的比较流行的这种机器学习的flow通常呢它是需要两个阶段一方面是训练阶段一方面是处理阶段当训练阶段的时候大部分都是使用一线的技术然后这些技术很难分布式排都是一些技能和工作还有一些就是特殊的训练模型然后它也会需要分布式排地规方式来完成训练完成之后可能会有一些再新的一用来提供预测一些技术这是最基本的一些维尼的flow然后在这个维尼的flow中从右边是说明这些训练模型是很难被刚才说到很难被分布的分开的通常都是有一些长时间运行的程序他们会使用这批月的资源来不停的一遍一遍的来学习来达到一定的要求结果然后当然也包括一些再新的一用来相应不提功夫那这些再新的一用通常也会使用到这种容器化的技术来方便的做开发和互属工作通常它也会用到Spark或者其他的一些调度调度模型吧由于这些技术的产生所以最终它需要的结果就是这些技术计算资源在不同的阶段它会需要的不一样比如说在确定阶段的因为它是很难被分布式开的所以它需要一些专业的高性能的计算资源然后在真正的应用阶段它可能根据用户的要求不一样它可能会在不同阶段下求不同的计算资源就是刚才说到的是是雷零的一个铺路这个当然是在使用刊登中通常都用到了它也需要不同的阶段在有些阶段它是用一规划的有些是可以分布式开的有些是也不行的然后甚至在有些阶段它的CPU资源的效果是非常低的只有10%左右然后但是在整个阶段它又需要很多的资源资源这是一个最基本的基因计算的一个流程有一些专业性的支持吧基因计算呢其实基因连大家都有一些基本概念的话都知道它其实都是最基本的那几个ACB什么的然后通常会根据已有的基因模板来了解比如说人类或者小白鼠他们的这个基因顺序然后再根据不同的采样来判断就是每一个采样都很包含的其实都是一些评骗的工作对于基因的处理也是分有多个阶段在有些阶段它是不能分不开的有些是可以分不出是要求的总之以上这些浮漏我们可以看到它最终的有一些归纳出来的一些特点吧一个特点的是GPU资源其实是越来越多的在这个基因在这个高清的基算高清的处理中有越来越多的重要性吧第二条就是分布式的这个文件系统的要求我刚刚提到了有些计算是无法被分布式开的这是可以的对于分布式开的它更多的需要数据的是共享然后第三条就是高清能不能的这个网络要求对于那些分布式的应用特别是不对数据的交流还有就是在不同的资本阶段我有不同的资本要求那我就需要一个高清能的并且是可以怎么说就是可以可以自动扩展的这种调度器和这个资源管理来支持这种分布式应用程序还有就是对于那些对于那些计算对性能比较敏感的那它就需要我们所谓的处理器清合性的一些调度应用因为在真正计算的过程中进程间的清管是非常好些好资源的特别是现在的硬件管理越来越支持这种所谓的另外没就是不同的处理器会有自己僵硬的内存那你在跨越其他处理器的内存收入的性能的水质非常地大那对于那些性能比较敏感的需要这种吸力度的要求那这些是我们在工作中发现目前之中高兴的计算高兴力分析支持认知计算的所需要的一些属性这个是就是我们所认识的一种就是技术演讲类型吧我从20年前或10多年前最早的高兴能力计算集群大家需要的是保证这个计算机的资源利用率在调度过程中更多是处理IPI类型的一些应用来保证它的不同应用的服务品质规则就是Sniper Agreement然后也要尽量调低这个调度的延迟性比如说当我的一个作业提交的时候他应该在一秒钟之内就会被调度到先进的机器之上然后要保证整体资源的利用率比如说我在整体的机器区之上要保证95%的充分利用资源因为这个要求就是要计算的要求是要原本高于你的一个资源可提供的资源这是十多年前高清的计算机的什么要求那最右边呢就是一些另外一种计算要求就是用外面应用我们所谓的包括现在的所谓的微服购价的应用它所要求的就是更好的这些package因为你要经常的做在线的更新所以你的package就要比较好然后你还需要丰富的这种EPI的接口来提供为这种狼狈色评估更好的支持比如说自动的破融降低甚至提供灾难恢复的这种技术也要能提供这个多租付的隔离系统来保证每一个人都有每一个使用者都会有可预测的服务吧这是两种接案不同的工作类型我们刚才在介绍当前各种各样的服务的时候我们也提到了在认知机架领域不同的阶段它其实有不同的工作类型这些HPC的工作类型还有常水运行的工作类型它都是需要的甚至是团线也有新型的方式就是连续FARF的在基于这种Session-based就是很短的Puzzle的工作模式那你如何来在一个平台上来支持各种各样的这种工作类型就是我们今天所要介绍的这种技术就是所谓的支持认知机架当地技术的中期管理平台我们期望的就是三种主要的工作类型就是Batch jobP助理的作业DAJ就是对于那些有向无环图就是Session-based的作业的支持剩下的就是长篇运行的应用的支持以下我就列到这些不同的工作类型的负载有P助理的作业有NPA作业有SPA作业有长篇运行作业要支持GPU资源要支持在一个服务中有各种各种各样的作业类型然后他们之间是有依赖关系有Resource Manager有资源管理平台协调各个不同阶段中各种应用之间的资源分配对不同的工作类型要相应的调布器这是一个简单的也不是简单就是这是一个典型的外国应用的产品的平台在左边就是它的管理间点通常我们就就是MessosMessos.NET我们认为Messos是一个非常优秀的作业资源管理的组建我们以它为基础还构建了资源管理型的同事有GPU的支持然后之上我们是来借助这个Kobotetis因为我们认为它是一个比较优秀的来支持微服方价的调度来做这个外国应用的支持那右边接点我们就是跟它同做接点使用容器号的技术包括这些Messos.NET至上呢是为了它们就是一些管理的应用管理的一些模式比如说用户管理的接口UI接口还有APM box还为来使这个编程人员有一个同意的接口还有一些同意的资源认证附载军容器还要定义一些用户和IT的Policy还会安全性的东西日治间适性能间适的破坏这是一个但是这个平台呢就是现在典型来支持微服购价的外备应用的平台那我们刚才提到了我们要支持典型的三种应用那我们怎么在至上的加上呢这是第二个我们借助Massos的资源管理平台的能力所以才使得能够在同一天台之上还管理多种不同的应用的同一种可能性吧这里边我们会加上对于这种第一个应用就是Spark应用的支持有我们开发的Sensors Gallery今天在Kino上大家也看到了勇敢给大家耽误的是在Sensors GalleryMassos的技术之上如何支持一种Machine LearningDeep Learning的什么框架我们还会有一个Session这边想到这个Sensors Gallery在明天下午到时候会深入讨论然后再右边我们会加上除了Governments的Agent还有Massos的Header来支持我们的Sessions感觉照这是把这个Longroom Service长线运行的服务和Spark那种DUDJ的服务应用类型已经在同一个平台之上我们刚才提到了还需要MPI传统的HPC的应用模式的支持我们再加上Bash ScannerLensac只是IBM的Bash Scanner的产品但在社区里面还有很多其他的支持Bash Scanner比如说PPS还有Torch这些支持通过Bash Scanner我们可以更好的支持MPI的账号也会做到比如说CPU Affinity这些技术所以在右边我们也加上了Bash Scanner的Agent也介绍于这种可能的技术来支持MPI或者高清的技术应用最终这是形成一个认知机身的平台来支持各种各样的工作负担的类型可以看到Messus作为统一的资源管理的基础Messus的作用就是它来管理整个机群的资源比如说机群就有多少每个节点上面的资源情况Memory还有容量磁盘的空间是不是有高兴还有一些特点比如说是不是有高兴的网络比如说银带还有你的CPU图铺建构什么样子的当前预兴哪些资源然后一些资源消耗量有多少所有资源的管理同时呢Messus也提供了最基本的执行的管理我们所谓的布置管理比如说container支持Messus可能izer还有cgroup支持如果有些故意再买能的资上也可以预兴空间但是我们同时也提供了cgroup来做资源的管理在Messus之上我们针对不同的应用复杂又提供了不同的调度模块比如说couple浪费batch的scatter来做MPFbatch job调度比如说DAGSpark work load的调度更之上我们还有work load manager来为和他介绍的各种各种各样的HTC work load来定义他们之间的依赖关系右边的就是在每一个agent node上的执行构建在之上就是一些管理组建为了让他们还构成的管理组建同时呢底下我们还有共享的成就高性能的把面提供了就是这些Fest当然社区公司也会有其他的Gluster 浑膳之类的这就是整个我们的一个现在介绍就是一些GCC的技术我们刚刚提到了就是在高性计算WDG中GPU占有很大的一些履状我们和Evidian 还有Messus设计其他的发言人一起贡献了一些GPU的支持预播应该在今天下午就是我们RBM中国音乐院的同事他会有一个三十来周边讲更具体的这个GPU的支持我在这儿直接到了我们所谓的大家老说这个GPU的支持那他到底意味着什么呢就是我们所得需要解决的问题点比如说如何让你的应用接触到这个GPU的专页如何接触你的应用而不会所以这些GPU专页就有投屏性如何来做到GPU的安製你的应用来使用的GPU资源的其他应用会还跟你抢占还有如何发现在机器中的GPU资源并且需要GPU的应用调度在GPU资源的上面而让那些不需要GPU的应用能够尽量的不使用这些GPU的资源还要对于这些GPU资源的定义的监控提供支持不同的GPU的类型因为现在虽然GPU的规范也在工作中但是不同的GPU的应用还是需要非常接口我们还要选择合适的GPU资源安装的应用然后下面应该就是IPI的支持虽然最新的IPI的协议中它也支持动态的加入Azure节点但是通常为什么会有IPI就是因为它有非常高速的通信协议但是同时它也带来一些要求或者无所谓的限制的要求就是它的通信组在运行公众中是十分的动态的所以这也对调度器提供一些要求就是说你需要在一开始的时候IPI的账号我要提供要预先做好一个比较smart比较好的优化的调度因为在预先的过程中你是没有办法改变它的它并不是可以与其是改变的一个构建模型这是然后第二个就是说说明已经有一些继续学习的构建来使用IPI的技术因为IPI在高兴社会上主要有很多基于IPI写的算法和应用还有不同的开发人员因为IPI也是有不同的厂商来提供这样的技术的各种厂商他们在提供提供IPI技术中心支持IPI这个协议的时候他也活动不了自己的产业性所以你也要具要求你的调度器要支持各种样的IPI的实现方式同时我刚刚提到就是这个的优点就在于它的组统性的这种方式那你我们也需要被IPI的招待选择合适的高速网络同时要支持IPI的这种OK那这样的话也方便用户来部署它的方便它部署它的应用特别是一来一通IPI实现的时候下面就看到就是说你怎么来协调化分布式的应用实现的资源需求比如最基本的这样的话因为只有康天教会帮助你提高你的开发功课效率并且减少你的在管理室的运营成本也提高你的运营效率当你以用康天教技术之后也就意味着你的调度分布式不是预线计划好的所以说是调灵活的最要求你在调度之后能够很好的发现我们现在所说的微妇的购家更多的是谈到所谓的无状态这样的话你的这个应用才能够灵活的不准带云或者鸡群的各个阶点但是呢在相关应付的应用还是所谓的有状态的这也在业界有很多的这种按据来代表那些无状的应用我们就认为是开发就是加速因为对它不用做特别的照顾你的加速牺牲掉一个不是太大的问题但是还有一些对地有状态的就会用重复的方法对你的家庭同学会有很特别的照顾那你在部署团内这种分布式应用的时候我们就要对这种无状态应用有时候他应用都要多些的支持其实有一些特点比如说对于有时候他应用的时候很多应用都需要有一些ID来代表他我们稍后会讲到很多的学习我怎么有招待应用还有我刚刚讲的特别的要求还有就是当对他对整个应用来说自动化的扩容或者缩减在你有很多的应用的时候你要提供很多的资源在你的应用附在挺好时候你会见到他的应用资源还有就是在不同的自顾之间要共享共享资源来保证不同自顾的优先级也有些高应用的也有些低优先级的我们刚刚说到就是说对于那些对性能敏感的应用的时候甚至这个CP和Memory的清可性都是非常重要的在现在的通常的这种比较就是技能比较强劲一些它都会提供这种有多核的机器它都会提供这种所谓的另外一边就是一组计算资源它会有自己相应的内存资源来保管在同一总线上的这个资源内存的时候它的防御效率会很高如果你计算资源跨越这个总线来保管其他内存的时候这个性能会降低那这就对调动器来提供了现在的要求就是对于那些要求了处理清可性的应用的时候那你就要保证所有的这些应用只能保温只能在特定的ZPU上来运行而且它也只能保温特定的内存来保证它的性能在Message我们也有一些现在的这个项目还有排发内容来保证那个在我调布的时候来指定那种是不是有ZPU清可性的要求在这个时候Message底层的资源管理系统只要记录下来有哪些ZPU是被使用的这时候上层的应用大家就非常挑选有没有合适的资源同时它自身也要调用现任的系统的调用来做在执行过程中来做现任的支持的实现那我们现在都支持哪些所谓的用户场景首先第一个我们肯定是支持传统的HV的应用因为我们以后比较Batch standardSF, FBSBatch standard支持CPUHV的应用要求还有我们有Sense standard同时我也可以将这些有状态的因为背后我也能支持以及分布式的应用这种同时那有了这些不同类型应用的支持以及Message QRPT或者就可以在平台之上购建这也就是为什么我们在Kinus Demo摩生教练一层一层技术购价的支持稍后我会受一个demo本来我应该是说一个Lock Demo但是我的我的笔记本昨天出了些问题我们刚刚来台湾所以很好我们还是有一个视频能不能全屏打开左边的这个这个就是我们的这个平台的UI接口叫做然后首先我们可以配置这个命令航端刚才看到的是一个Ui我们命令航支持所有的互联的和NASOS的CUI和API现在我来创建创建的是一个实际化的存储继续NFS然后我对实际化存储提供一些要求就是我申请的存储中间然后它就会保留到我刚才重建的实际化存储的这个物理建设过去然后我创建了一个HGC的Scanular就是Alpha这时候呢你就可以刚才说的风发现你就可以去根据的我们提供的是一个横定的这个IP无论你的MASTER稍后回去的哪里它都给通过这个IPI和温道这是这个HGC的UI借口这是如何管理部署因为你的HGC的Banage是作为一个LaurentServe来管理这就体现了我们这个CFC怎么来管理LaurentService我们已经看到HGCMASTER非常上运性了这是如何支持LaurentService然后我会创建另外一个石油化存储券然后同时也对也提供一个支柱的邀请这是我来部署的Spark Session Scala这是所有这些Scanular都是对LaurentService团阅性的但是它稍后会调图这个不同内容的账刚才看到的HGMASTER会调图HGC的账那这个会调图Spark的账同理会拿到支柱而且可以看到Spark的应用的讨论模式那在背后无论是你做Fill Over的时候你的访问的Url是不会改变的只保证了服务的一致性下面我要部署一个可安端我们用的今天代表的例子是使用R来编写的那我就部署一个R StudioR Studio其实也是一个外国的一个conflict方便用过来编写R的颇贯要类似于这种iPad出门的book其实都是大同小异的R Studio是作为另外一个LaurentService已经起来然后同理这些他们背后都会踏实这种共享的持续化的新组绝这样的话在你这时候我们如何把它作为一个iPad它管理起来的这时候我会露的我们的认真计算的应用那第一个应用其实就是使用CMIS来完成CMIS就是一个比较流行的但继续去做一个算法就是还找出这个G类有很多在空电中很多的点已经找出这个新的G类我们与行的这个是这CMIS背后是然后然后稍后我们会去第二个这是Spark的我们是用那个细细回贵的方式来trigger了一个Spark的然后他们会在同一个平台上面稍后我们会去这个LSF的管理console平台和这个Spark的管理平台这是LSF的我们看到有一个提交新日作业是背后是分配了两个节点运行NPI的帐篷这个NPI是有两个我订到的然后我们也会稍后去看在34K的管理console我们也看到这个我们也会提交两个提交了一个Spark的这个作业这是CMIS的结果就是他找到了五个在空电中所有的点中他找到五个G类来保证相应的区域以他的区域最近的就是CMIS的算法他也有很多很多低规的方式以低规的资助多他的结果被掘进去然后这是Spark照我们看到已经有一个Pation调调起来Spark R的他会做一个新型回归来也是一样的在空电总统点中他会找到一个新型方程来保证他的最小二层是最小的这是最基本的新型回归算法这是R的对机器学期的工具机背后部署的都是或者是IPA的照或者是FARP照这是Massos的旁手可以看到Spark的L7都有相应的自愿分配最后一阵动的话其实文件定桃其实他也会发出一个图来是最新型回归的图这些微流在UPLOAD和UPLOAD在YouTube和YouTube上背后大家就可以再来一下今天其实讲的差不多到这儿有什么问题可以我们现在交流一下或者背后问一下你们的后端的需要的存储使用了什么SHLFS还是其他的重复一下问题就是对同学问的我们后端存储用的是SHLFS我们正式的上线应用端可能用的就是IBM的GPFS就是高性能的分布式文件系统但是我们也是其他的存储其实也就是我刚刚演示的这些物理卷最简单的就是SHLFS还有Galaster当然其他有很多很多的高性的存储文件系统或者是云的文件系统比如说S3甚至是OpenState或者SWIFT我们利用的技术就是OpenCubalitis的持久化卷的支持现在现场没有问题其实在会后你也可以发信给我在前面我有我的邮件地址后面可以做当面讨论也可以在IBM的BOOST来找到其他的同事谢谢谢谢