首先我们觉得Sales of the Weaver是非常好的一个东西那么我们希望有类似于Sales of the Weaver这样的一个思想然后来去开发下一代这种就是平台另外一个是需要考虑到我们企业内部的这种具体的场景需要就是刚刚说的不同的开发者他会用这种不同的开发语言以及相关的一些其他这种需求我们需要去考虑到而不能仅仅是使用Sales of the Weaver好了 根据以上两点基本前提我们实际上提出来了一系列的这种下一代云应用开发的目标我们称之为QuestQuest是什么C Compatible就是兼用种性就是我们需要这种不同兼容不同语言不同操作系统还有不同硬件平台那么第二点是快速也就是rapid对于这种大多数云应生几个方案那么它这种应用的拉起和销毁速度我们需要非常快我们需要就是rapid另外一个是弹性就是说我们需要根据应用它运行的指标来对它进行扩缩容另外就是第四点是Dynamic动态那么我们需要这种动态的去拆分应用然后以达到这种高效利用资源还有一个高吞吐的这样的目标第五点我写的是Single单一但实际上这个应该用Single应该是monolithic但是因为这块我想让它更容易计所以我们叫做cred那么这块就是讲的是我们开发者需要专注于单体应用本身逻辑开发而不应该耗费你的时间在这种协调不同组件的沟通还有这反序列化的这些问题包括还有一些错误拍照当然另外一点我们还因为现在Machine Learning用了很多所以说我们还需要这种对于Machine Learning这些要求我们也需要去来满足满足注入这种训练要推理这样的要求好了首先我们讨论一下cred的前两个c和rc是compatibler是rapid就是rapid还有一个当然这块还有一个是安全性对吧那么在兼容性方面那我们想想怎么去解决这个问题我们可以其实立刻想到一个run time加isolation的这样的一个解决方案那么具体用这样的解决方案它有这样的可选项一个是我们用download的这种common laundry run time就是通语员运行时或者用加了讯息机就是JVM这是这样的话是一个run time另外我们需要一个isolation就是一个隔离是什么样隔离我们可以选择VM容器或者是unicorn or the process但是因为实现的这种比较复杂性实际上cl2和jvm都没有办法满足我们对于这种快速拉起和运用这种快速拉起和停止要求那么这块等一下我会讨论然后另外一个在安全性方面那我们是否可以用大家熟知像这种VM container还有unicorn or the process那么在我们这边答案是否定的那么我等一下会给大家介绍一下为什么我们这边在安全性方面答案 这块的答案是否定的好了就是说现在我们就要介绍一下为什么我们不能选择VM container或者unicorn or the process首先我们先了解一个比较重要的这种运用的一个问题就是说运用的冷启动问题这冷启动问题是一个比较重要的就是一个比较重要或者比较困扰大家的一个问题那么如何降低这种冷启动延时一直是一个需要解决的问题那么它同时和安全隔离的方式是高度相关的在业绩还有一个在产业的我现在大家主要有这种三种方式对这种冷启动来进行优化首先第一个是从这种生命式改为命令式具体这块的解释我就不具体细说了大家可以去查一下怎么样是这种什么是生命式的什么是命令式的那这个通过这种生命式变为命令式来加速Kubernetes控制面它的处理第二点是用Wallpole来加速VM和容器的这种获取然后避免去创建这种全新的实力这是第二点那么第三点是用这种类似于CRI-EU这样的快照恢复就是SnapShot Recovery来去加载这种进程的载入当然CRI-EU本身它有一些问题了它和VM这种因为我本身以前是搞就是说本身搞VM Lime Regression的那么在这种Porsus这种Lime Regression会遇到非常大量的这种很难解决的问题那么这块我就不在这里说更多的细节了大家有兴趣的话可以去做进一步的调研那么好我接下来给大家说一下这种不同的就是说在针对于这种营应的能启动问题我们需要对它进行能启动优化的时候那么这种不同的隔离方案会有一些什么样的问题首先第一点是虚拟机这个虚拟机我已经其实在读PGD时候一直都搞虚拟机其实但是这个虚拟机就是它本身有一些优势有一些劣势首先虚拟机对于Intel和AMD它都有这种不同硬件支持然后VMCS这样的一个结构它主要是保存VM状态你在不同VM切换的时候它这里面是有一些VM的一些信息会保存在这里面然后比较重要点是VM EnterVM Exit大概需要CPU的周期是1500个周期这块后面大家我还会和其他进行对比那么这块大家可以大概记一下对于内存访问它有这种GuessUterGuessColonel到HosUterHosColonel这样的一个内存访问另外在硬件方面可以用EPT or NPTL来去加速然后性能会基本上接近于这种Native的性能那么现有的云烟声解决方案是Cata Container还有Coopware这样两种解决方案这样的话你可以在云烟声的环境中可以使用这VM那么它的一个特点就是说它镜像的比较大然后虽然说安全性高但是它的启动实际上是非常慢的另外一个是容器容器实际上使用的这种硬件支持是比较经典的这样的一个ProtectionRingProtectionRing这个东西就是在操作系统里只要你读这个操作系统的课你基本就知道就是说怎么样在操作系统的从UterSpace到Colonel的话怎么样通过Ring的这样的转换来保证它的安全性那么这个系统调用的一般需要大概200个CPU周期然后内存访一般是通过PageTable这种页表来转换的那么一些缺业错误通过内核一般是来去Handle另外对于这种就是容器来说它的镜像大小比起VM要小那么它的安全性也是适中的因为它通过Ring的方式来保护然后启动来说比VM要更快一些这里实际上放的这种就是容器的运行室好了我们了解一下UnicolorPorsis这个点Unicolor本身是一个大类了但是我们这里主要专注于Nabla container这样它是UnicolorPorsis技术它的主要想法是什么呢它通过极大的减少系统调用来缩小攻击面来保证它的安全也就是说它在通过Solo5的接口它在最底下只用到大概是七个左右七个左右的这样的一个系统调用那这样的话就相对来说保证它的安全性就比较容易一些了在这个里面它通过一些Library的调用它基本上都是通过这种CALL和这样子的指令来实现这种调用的它每次调用大概也就是200CPU周期它的好处就是说净向非常小然后它是启动非常快的当然它的安全性主要是依靠外部像这种OS系统调用来帮助的那么启动包括像用这种OS的就是Linus control它里面那些SysCALL的保护机制来去保护当然这一点因为它攻击面非常小所以说这一部分相对来说它去调用性调用了这种的次数会比较少那么这样的话它的性能就会相对来说比较高好了对于这几个方案我们实际上是进行一些深入的思考了对于这种冷启动优化我们尽管我们可以用这种冷启动优化不断地尝试去优化这种像这种容器或者VM它的启动速度但是仍然VM无论你怎么去优化VM启动时间是始终大于10倍以上容器的这种启动时间而对于容器来说它的启动时间那始终都是大于10倍以上的这种unicolonial as a force的启动时间那么在这里面我们看到unicolonial as a force它的启动时间是非常快我们是不是应该全面去往unicolonial as a force来转对我们来说答案也是否定为什么呢因为unicolonial as a force本身有很多缺点首先对于这种不同平台环境这种兼容性还要迁移能力是相当差的然后另外对于这种并行执行的它能力也是有限的而且最后一点就是对于这种错误排查相对来说也是很复杂的那么最终我们选择什么呢最终我们选择VM首先在安全性方面它使用的是这种software for isolation SFI就是软件错误隔离这一点的细节大家可以有兴趣之后去查一下然后和Python和JawScript来比那么至于WebSummit它的运行时有非常非常小对于WebSummit它亦于迁移和操作系统和应变平台实际上是无关的而且它的错误排查相对来说是容易一些的好了这点主要是讲AI和WebSummit的一些相关的一些信息这里面主要应该是由Michael来介绍那么这块我就帮大家大概去说一下这里的内容那么首先这里有个WebSummit有一个WebCN extension扩展那么它使用WebCN实际上你是可以去完成一些Machine Learning推理的业务然后它底层可以用到包括CPU、GPUTPU等相关的一些硬件加速然后这个WebCN可以是根据你具体的软件硬件的情况来去提供不同的底层实现然后来提高你的Machine Learning应用的性能就这样的然后WebCN它是从2019年开始的它是作为WebCN官方的支持的扩展然后它可以是WebSummit使用host code来执行Machine Learning inference就是Machine Learning推理目前它在非错然后在WebSummit time还有Warmware还有一个WebSummit中均有实现这里面就是这个是个Link是WebCN的具体一些specification吧然后WebCN在WebSummit中也有支持当然首先它符合WebSummit中的实现首先它符合合规然后另外一个它支持一些新的特性同时在WebSummit中还有这种会有相关的Rust API支持就是说通过Rust API你可以把你的Rust code来去编译到WebSummit在WebSummit上面运行然后利用WebCN的能力去做你的推理服务它支持了多种这种BackendOpenWindows还有一个Pytorch还有TensorFlow然后在WebSummit中还提供这种数据的预处理和后处理的SDK这个相比Python来说就会快很多另外一个这些插件它支持这种WebSummit最新的这种component model标准这component model标准比较复杂大家有兴趣的可以去了解一下另外一个现在是在WebSummit中再加这种加了script的Python这边的API的支持这样的话将来在加了script和Python都可以利用这些API来去在WebSummit中使用WebCN好了这个是整个一个WebCN的生态了这里面包括Backends还有Data Processing还有Models这些我就不去细讲大家有兴趣的话回头可以去我这个slides在线上可以下载那么大家有兴趣可以去看一些细节好了我们刚刚讲这么多实际上还有一些东西没有讲是哪些呢我们刚刚crus里面我们讲了compatible or rapid那么后面关于这种弹性动态单一的话我们实际上还没有讲我们怎么样实现这种弹性动态和单一呢在我们新的框架里面呢那么首先对于现有的kubernetes它是没有办法满足我们对于这种modelistic单一应用这样的要求的因为你需要去不同的pod不同pod之间通过glpc或者其他方式来去调用那么这块实际上是没有办法kubernetes这样的一个这个环境是没有办法满足我们的这个要求的另外一个有一个论文非常有意思facem它是帝国理工一个pg它就是它的一个paper然后是这里大家可以之后可以去了解一下它实际上和我们的思想非常非常类似的它提供这种单一的应用分布式调度还有一个分布式数据存储这样的一些能力但是它的问题在于它是过于学术化它是一个在学术领域大家可能讨论比较多的一个东西而且它的这种单一的共享内存空间的设计那使得它是一种面向任务的设计而我们需要的是一种什么面向数据设计我说这个面向数据设计什么意思呢就是说在machine learning里面我们需要去分配很多的数据那这些数据之间会有一些dependency比如说你backward还有forward这些实际上都有一系列dependency那我们怎么来去解决这些之间的dependency那实际上我们需要是一种面向数据的设计而不仅仅是这种像facim这种面向任务的设计因为它只是考虑到任务之间dependency而不是数据之间dependency那么最终我这一块的选型选的是rid的框架那什么是rid呢这边有个定义就是在从官网抓下来就是一个开源统一计算框架可以倾动实践ai和python工作负载从强化学习到深度学习再到调油的模型服务这个就比较长了那么它的创始人其中然后Yan Stovic它的对rid定义什么呢是Digital Computer Ecosystem and Service分布式计算生态及服务这个是比较简洁的一个定义那也就符合我们对使用rid这样的一个期望好了那么rid的框架是什么样的那我给大家稍微介绍一下大家之前就是说了解过rid的我们要可以举一下手看看OK还是有一部分大家了解过rid那么对于rid我觉得大家如果有兴趣的话可以之后去了解我觉得它还是非常不错的一个框架首先对于rid它这个集群里面分为两种角色一个是Handel另外一个是Walker-NoneHandel你必须要有它是这个主要的一个节点然后Walker-None你可以说可以是任意节点比如可以是没有只有一个Handel也可以有就是多个这样的Walker-None那么Handel和Walker-None他们在一起最终组成了这样rid的一个集群这个rid的集群它里面有几个点我可以给大家解释一下对于云烟生比较了解的话我觉得大家可能会比较容易理解首先有一个叫Ridad它就类似于Kubernetes里面的Kubelet这样的一个角色另外一个在GCS它有个GCSGCS类似于什么类似于Kubernetes里面的APS Server这样一个角色另外一个它还有一个分布式的对象存储叫ObjectSore它保存所有执行任务它们产生的一些对象的变量这里下面有一个Rid这样的一个例子这边有个Handel square然后你用Rid.Remote这样的一个Decorator去放在上面之后这个Handel数之后你就可以通过Rid框架来去远程的或者分布式执行这一块你在square.remote的时候实际上它是告诉Rid然后Rid框架我需要去分布式执行这样一个Handel数那么它就会去Aceing的方式一步的方式去找到对应的一些节点把对应的task在那边去拉起然后并执行然后它DecoratorRemote返回的实际上是future那么之后拿到future以后那你需要去用Rid.Guide来去拿到最终的结果这就是这样的一个简单的Rid的势力当然还有Ace的这里是task的势力还有Ace的势力那么大家有兴趣可以去进一步了解一下好了那么Rid提供的这个能力有几个点实际上是我们非常喜欢的然后这首先一个是远程调用的这个能力Rid可以接受任务的调用请求并且在集群的合适的节点上去调度执行的这个请求另外一个是分布式对应存储就是说你可以把边量对象保存在对象存储之中然后最后根据对象是否现在是available或者是可用的这种状态来去控制任务之间的dependency来去调度这些任务另外一个是acture模型对于Rid里面它有两个抽象一个是task 一个是acturetask是无状态的stateless的然后acture是staffled的那么对应于Rid的情况实际上你写的Rid function是映射到Rid的task而你在Python里面写的class instance实际上它映射到Rid里面的是acture好了 另外一个就是说我们可以通过这样的Rid的框架来去监测我们执行的一些指标然后能够帮助我们更好的这种在线或者零线执行这样的一些调度好了 现在我们已经第一部分我们花了很多时间了那么现在我们就介绍一下我们warrior基于Wasim的Fast框架其实我们之前已经介绍很多点了大家在这可能已经能猜出来我们大概是怎么样的一个实现好了warrior实际上是通过WarmSumley的运行时里面的host code像上层用户提供这样的Rid一个分布式的能力那么其中实现的具体包括三部分了一个部分是Rid的WarmSumley walker当然Rid它有这种Jaw walker 又有Python walker我们实现的是这种WarmSumley walker那么在此之上我们可以执行WarmSumley的代码另外一个是WarmSumley的命令行工具也就是说这个命令行工具我们使用化可以和Rid的集群建立连接载入并执行我们的WarmSumley这样的模块最后一点实际上我们实现的使用的是WarmSummageWarmSummage有很多优点了它其中一个就是它的这个插件系统那么通过这些插件系统我们可以提供很多的这种扩展知识包括Machine Learning的这种业务的知识那么我们使用的是WarmSumley好了那么我们既然提到是一个fast框架那么这样的话我们需要去讨论一下对现有架构的fast的修改那实际上我们是整体上的整合了WarmSummage运行时还有Rid框架还有我们火山引擎的fast平台当然这个火山引擎fast平台没有什么特别特殊的就是说因为是在我们公司内部所以我们使用这种我们的火山引擎的fast平台但是对于大部分的这些fast平台上我们经过改造实际上都可以支持我们的warrior整个框架首先如果我们这种fast的这种请求那我们经过改造让我们这些walkers能够接受这种WarmSummage的请求那么之后在执行的时候它就会选择WarmSummage对应的模块来去执行另外一个我们在我们的fast基础中同时要部署Rid基础然后以提供Rid的分布式能力当然这个部署可以根据具体情况我们可以和我们的这些fast的walkers一起部署或者你可以去根据需求通过类似于Kubb-Rid这样的一个项目那么你可以在Kubb-Ridis里面按虚拉起Rid基础然后去来执行你这样的一些执行这些Rid的请求在我们选择WarmSummage这个原因首先它是非常容易和其他的非Ross项目进行合并并且功能编译大家也知道就是说在WarmSummage里面其中一个run time叫washing time这个washing time它有一个比较大的问题是什么它就是它是用Ross写的你要和其他的你要如果用这种make file或是其他的这些项目你要去一起去编译的话这块会相对来说会比较麻烦另外一个对于其他的WarmSummage运行时WarmSummage的性能也是非常不错的它是通过编译成LVM然后通过LVM再往下编译成WarmSummage另外一个是这种插件系统WarmSummage的插件系统可以使得Machine Learning推理是执行起来这样的话它的扩展性是比较好的好了 这样是一个具体执行例子这块我就大概就给大家说一下这块我们再载入一个WarmSummage的module之后它有一个Interpoint入口之后那么我们可能会调用Function AFunction A可能它会用这一步的想去通过Rate来秩序去执行一个Function B那Function B可能还会去这样去Recursive去调用一个Function C那么这种情况下我们是通过WarmSummage这个host code然后提供这样的一个能力那么Function A最终通过WarmSummage的Runtime然后再通过Rate会在另外一个几点调度Function B那Function B也同样方式调用Function C再最后Function C返回到Function B那Function B可以把这个结合返回到Function A大概是这样的一个执行方式好了 那么这一块实际上是一个具体的例子这实际上是一个文件左边是文件前半部分后面是文件的后半部分那么都是用C来写的前面是我们就有一个函数叫TaskFunction那我们实际上这块就是一个简简单的Local调用那么我把对应parameter给它它就能够返回结果在右边这块实际上是我们Warrior的这样的一个方式的调用那么因为它是Async我们实际上需要返回一个Future之后我们通过去拿到Future内容然后把它去放在最终的结果里面然后我们再把这个结果打印出来当然目前来说Warrior它和简单这种Local调用还是有一定区别的但我们目前也是希望把它就是将来都会变得越来越简单那么之后呢希望能够尽可能和左边看齐那么之后我们再像C或者不同语言你要想去调用一个方式的时候那我们就直接就帮你可以在这个整个分布式机群里面去执行你的这个函数这一点我来做demo吧这有两个就是刚刚我们就是代码的一个演示另外一个还有一个MobileNet推理的演示好 这里是简单的这个因为这个代码比较多首先我们要编译我们的Warrior代码然后之后我们再执行那这块主要是在一个编译过程这个编译呢因为我之前已经编译过所以说这块的编译相对来说是比较快这部分是RustCode的一些编译编译结束之后呢那么我们就会执行对刚刚的那个视力那个代码好那么这块呢对这块呢就是然后之后这是build我们那个wobby3类代码这块呢就是刚刚大家可能看到的那个就是视力然后现在呢就是我们去执行首先它要和Rate的这个机群建立连接建连接以后呢它就会那个就是载入这个wobby3类代码然后并执行好大家如果注意一下这块有两点一个是你看刚开始是本地执行这返回了一个结果然后最后呢是实际上是这种就是远的通过这个Warrior来执行那么我们看到这个结果是一模一样的好了这是第一个演示第二演示是一个YCN的演示吧这块主要这块实际上没有用到我们的这个Warrior虽然说在我们的Warrior平台上执行的但这块主要是用到YCN的这个能力你们大家可以看一下这个如果大家有兴趣的话可以去这边去下载这个实际代码这个实际代码也是上面说的非常清楚大家想想去可以去自己运行一下然后这边的是一个图片它用MobileNet呢去来执行然后去检测里面的这个物体这块来说就需要时间比较长它这个编音的时间就比较长一些然后我就直接跳过然后最后它这个因为它在CPU上执行的所以这块执行时间也相对来说是比较长我们可以看到对 这块这块我这个highlight这块这块是一个不单的那我们能发现就是刚刚那个图里面的这个香蕉就能被检测出来当然其他一些的它就是一些其他的这个Lemon什么的这就是一些比较不太可能的东西对 是这样的好了 这是两个演示然后后面前景这块前景实际上我还是对它非常非常看好的为什么Warware它的潜力不仅仅是在Fast上运用将来在这种云边端的这种协统打破这种云边端界线动态控制你这个应用在哪里部署在哪里执行这块然后同时就是满足你这个应用这种吞吐和性能这个就是优化你最远使用这块我觉得是有非常大潜力的另外一个在Ego计算这个Warp3B最近在Prince顿那边他们发了一个paper发了一个paper什么的是把Warp3B编一程就是通过然后在底下转到OpenCL在最终在GPU上执行他们实际上已经完成这样的一个圆形当然它只是在paper目前来说它只是在paper上面离具体的生产还有一定的距离但是那么在这方面我们可以发现Warp3B将来我们可以使它在这种我们在这种运行时动态来去调度调度它在不同的像这种CPUGPU还有FPGA上去调度调度之后我们再根据它的具体的架构来去把这Warp3B转变成它这个架构上面的代码来去执行这一块实际上在Ego计算它还会有非常大的前景现在未来就是我正在做的一些工作一个是刚刚说的这种函数调用抽象另外一个是在warrior上我们计划把Lama2到C也能够运行因为这里面我想让它分布式执行而不是简简单地用大家如果看过Lama2到C的代码可以看到它里面就是简单一些C的inference代码那么我们希望在Lama2到C里面我们把Maloc相关的一些调用实际上是分布式执行这样的话Lama2到C可以是在这个计讯中真正地去分布式的执行对另外一个点就是我们想将来去支持更多语言了来去再问这样的话不同语言都可以使用我们这样warrior一个架构对对 这就是我今天的talk然后看大家有没有一些什么问题我想我想在warrior这个框架里面Wasm主要的作用是什么我感觉好像因为Rey本身已经有分布式能力了Wasm是不是主要就是为了支持多语言有这样一个container我这前面有提到刚我提到一个C这一块主要是什么主要是完成这个CRGVM但是GVM和CRGVM它本身非常heavy的我们没有办法就比如说你GVM如果想往GPU上去执行实际上是比较麻烦的它们都是在这种对象层次的这种抽象而对于Wav3里来说它是相当于一个iSC就是iSC就是指令级的这种抽象所以说它比这些就是GVM或者CR实际上更底层那更亦于在不同的这种架构上面去做这种遷移好 还有一个问题就是现在只支持C是吧C加加支持然后当然我将来就像这种加SCRIPTPython这些还有Rust都应该是能够支持因为CRC加加本身是这种只要它们只是想在其他的这些语言上支持相对来说会容易很多好的 好 谢谢看大家还有什么问题吗那个老师娘我问一下就是现在那个比如说就是这个它是Warryer是你们做的东西都是开源的吗全部开源的当然我有忘了我把我的定型放上去了但我在Github上有一个report就是Folk的Rate的report然后实际上我现在目前所有的东西都是开源的但是我当然这块其实野心很大但是里面要做东西很多我一个人肯定也是短时间内完成的我要需要很多的时间将来还有一些合作大家一起去来完成这样一个事情就是这个是在字节的环境里用到了吗还是怎么办现在准确说是我们的字节的lab里面我们是做一个偏前的研究具体的业务因为这个东西给用户区域用的话实际上需要去让用户的整个思路去就是说一个比较大的转变让他们去适应这个还需要一定的时间另外一个就是对现有的像这种微服务的情况它要想往上面签一期让布容因为我们是webassembly的这样的一层那么下层它如果要用的LURAIN或者其他的一些比较底层能力的话实际上目前我们是不支持的这就是一个比较麻烦的就是说它是和现有的目前来说和现有的像Linux的这些建容是有一定的差距的好的但是它支持WASI就是那种像POSIX这些的实际上它是可以但是因为Linux如果你要想实现高性能的那些架构的话那你就不能简单地使用这些POSIX的东西就是用webassembly跑一些计计模型的计计学习的一些模型的话像您说的现在是大语言模型是支持Lamatoo是吧不是那个是WASI就是说你现在Inference就是推理是支持的但是对于TRAINING然后包括这种这种纯纷不适的去执行实际上还是有一定差距的对我其实主要就是推理就是推理现在能够支持Lamatoo这些对都是支持WASIMAGE已经支持了就是Lamatoo这些的对看大家还有什么问题吗你好 我想问一下就是我们是基于Rate的但是Rate的话它一定是会给用户带来一定的成本因为它可能有一些代码的侵入我们有没有一些什么样的方案说能让用户能够愿意去迁移过来因为你让它去改代码去学习一套新的生态这个东西是一个比较麻烦的事情我们有没有考虑从哪些方面说更加友好一些有一个项目CoopRate其实我也是在那个项目里面的一contributorCoopRate实际上是你可以在KBS环境中然后去分配你的Rate的机群然后使用Rate的能力目前来说就是说现有的音源声的一些接人问题可能通过CoopRate这些能够适当的来去帮助你来去更加容易的使用Rate但是从我个人角度来说Rate这个东西它的API设计非常漂亮那么我个人其实还是觉得对于Rate本身它是一个非常有价值的东西那么至于将来说我感到就是说现在Linux有很多问题那么Linux我们发现它的这些问题包括怎么样去尽可能并行提高性能而且现在摩尔定律已经基本上到了一个平静了那我们怎么挖掘现有的软件能力实际上这个是非常重要的那么Linux在这上面其实已经有很多问题了那么是不是有一个新的分布式的操作系统会来替代Linux那这一块是一个非常有意思的点实际上我也在考虑就是说如果这个东西它作为一个OS来提供那么上层就是说你提供了一种Wobby三明能力就是什么语言你在编译的时候你不需要考虑到它是怎么样分布实行的而真正在这个实行的时候整个OS来去帮你把你的这些代码来去动态的在整个机讯中去部署然后根据不同的议购就是议购来去编译就是或者用Git或者AoT这种方式来去执行那我觉得这一块可能是一个将来的方向当然这里面因为大家还在探索阶段很多人可能和我的意见会不太一样那么这一块我觉得也是我也是比较开放的大家可以在这方面进一步进行一些讨论老师你好我这边问一个问题就是现在这个WhatsApp就是有没有在项目中遇到这种Io和网络的一些这种资源的一个竞争的情况如果它没有竞争的话这边是怎么去做这种隔离的另外一个就是刚才也提到RateRate就是它存在一个就是它的通信是建立在GPC上面的那对于像大模式训练可能需要去利用IDM底层那些比较高速的这种网络那这种场景的需求有没有一些解决的思路好 先回答你第一个问题就是说对于这个叫什么叫业务之间的干扰这个问题实际上你只要是不用这种VM或者甚至比VM更底层的那样的一种隔离方式你就没有办法完全避免这种业务之间的打架这种情况我们在公司里面实际上我们也遇到这样问题这样问题实际上是非常麻烦的你可以类似于用C Group之类来去一定程度上解决但是仍然这个东西是没有办法跟除就是或者说根本解决的那这样的话你只能是一种吹豆腐就是说你如果想要业务之间的隔离比较好的话你可能选择VM或者更好的这种隔离方式如果是你觉得你可以接受一定程度上他们之间打架的这种情况那你就选择像这种container或者像这种wassom这种情况那么在这种现如今的这些其实有一些可以做的事情将来可以能帮助你更好的隔离业务就是这样的第二个问题RDM这一部分这一部分实际上目前来说相应的工作还是比较少的那我觉得这个可能是将来大家可以去探索的一些新的点对行那大家如果有什么其他问题将来可以再就是下来的话我们可以深入讨论非常感谢大家今天来到我的talk这个就是如果有什么那个问题或者到时候可以就是联系我然后我会尽量地帮大家去解答好 谢谢大家