最近的各位来宾 大家早上好非常荣幸在这里跟大家这么多新老朋友相聚我是阿里云容器服务团队的伊丽今天我将跟大家分享我们在云原生AI领域的一些工作进展云原生是阿里1加4开源战略的重要组成部分它是与操作系统 数据库 大数据所并列的四大战略领域以及是支撑AI模型社区摩扎的底层制技术阿里云已经向SINCE AIF基金会捐赠了超过11个开源项目其中Dragonfly、Cuby Vela、Open Cruise已经进入福哈阶段在此非常感谢所有的开发者 谢谢在去年我们见证了AI大模型的惊人的速度在进化它持续在刷新我们对智能的认知和期待然而这背后是训练大模型所面临着对计算力指数级的增长计算技术设施面临着三大技术挑战第一是规模技术设施需要能够高效调度万卡的GPU集群提供TB级的高性能网络链接支持对PB级数据的训练第二性能我们需要综合使用多种分布置训练的优化手段来提升模型的训练速度第三是效率我们需要强大的工程平台来支撑从模型、训练、微调到推理整个生命周期的快速迭代为了解决这些挑战我们不但要算法上的突破也需要工程上的创新以Cubinatis这样的开放、开源的技术已经成为支撑大模型工程化的底层技术基础阿里云也一直致力于此向社区贡献了包括像Floid、CubeDL等项目让AI应用可以更加高效的运行在Cubinatis平台之上同时我们也向社区贡献了向CostGathering, Plugin这些能力能够帮助Cubinatis更好的提升AI的应用的资源分配效率它也被应用在OpenAI等大规模训练集军场景为了更好的支撑AI大数据这样的工作负载以及更好的支撑像GPU、RDMA这样的新的易购算力我们将更多的能力沉淀到开源的Cognitor项目之中Cognitor源自阿里巴巴大规模混布实践能够高效、统一地将微服、AI大数据等应用运行在一个剧情之中它采用非侵入的架构设计能够在兼容Cubinatis所有调度语音的前提下同时提供了完备的批量任务调的言语包括像GunScheduling、Ucnd对列、弹性配额等等可以无缝地和CubeFlo、CubeDL等AI框架所集成同时它也支持透普感知的性能优化可以从NVLink、PCIE、RDMA等多种网络透普连接中选择最优的一组GPU来进行训练有效地提升了训练速度同时它也提供了精细化的GPU共享和调度能力可以帮助企业提升GPU的资源使用率Cornator开源一年多以来已经广泛应用在众多企业的生产系统我们也正在推进它进入CNCEF项目帮助项目能够有更加健康持续的发展除了调度相关的能力阿里云容器服ACK和原生压套件还提供了AI任务管理数据极加速、弹性的训练和推理等众多功能可以帮助开发者在阿里云上轻松快速的构建高性能的AI平台它不但支撑了阿里包括向凌俊治算统一千文大模型还有像妙压相机这样的爆款AIGC应用也帮助众多的国内外企业落地AI平台和大模型技术它可以帮助企业将GPU资源利用率提升100%将模型训练速度提升20%将数据访问效率提升30%我们也在持续将这些技术能力回溃到社区如果大家对这些感兴趣也期待到阿里云的展台和参加我们小伙伴们的赛选OK 再次感谢大家谢谢