大家好,首先,非常高兴参加2020年库布克亚中国的这次大会,我叫高众,我来自于英特尔数据中心与人工智能事业部。今天我将和浪潮的彭丽业一起围绕Airbus在智能分析以及云和云相结合的一些场景和大家做一些简单的分享。我们的内容主要包括两个部分,首先我将以机器学习和大数据去实现向Airbus当中这种大规模的持续分析应用来展开。然后彭丽业会围绕浪潮在云基督设施以及云原生的一些Airbus的应用案例和实践和大家做一些分享。首先,我们从云服务化的视角来看一下,云典型的特点是软件定义,宏观的讲从下网上我们有AS、PAS或者SARS。从他们直观的定义或者名字来讲,我们发现他们有一个共同的特点,那就是Service,也就是服务。而一个服务它产生价值的前提条件就是服务的可用性和可靠性。然后从价格上讲,现在一个服务被容器化,被维服务化或者无服务化,从价格上把传统的这种单体的这种应用或者服务拆分为几个相互独立开发和部署的服务。然后他们还可以通过网络分布式的分布在不同的节点,不同的AZ,甚至不同的Region,同时还具备可以动态扩展的能力。从更微观的视角来看,一个服务从下网上它会包括硬件资源、操作系统、中间件、数据库、消息队列缓存以及负载均衡,包括前端。然后加上存处网络以及安全来共同来交付一个服务,因此从单个服务的视角我们也并不是总能保证一个服务的可用性和可靠性。另外,我们再从规模化的视角来看一下,如果把刚刚这单个服务的视角扩展到成百上千个服务,甚至上万个服务,这时候凭解这些服务之间还相互存在这种调用的关系。我们如何整体的来或者系统化的保证这些服务或者系统的可用性和可靠性,其实这个问题的这种复杂度已经完全不一样了。当然,我们可以通过一些服务之里的手段来规避或者优化这个途中所提到的这种dead start的问题,但是这依然没法回避一个对根本的问题,那就是我们如何去跟踪杜良或者优化以及保护我们将要部署或者说已经在运行中的这些服务,来保证它整体的可用性和可靠性,尤其是在这种规模化的视角下面,这对我们的管理和用为其实带来了一些很明显的挑战。基于我们前面所提到的问题的规模和复杂度,使得云平台以及云上所运行的这些服务内部和服务之间的可靠性变得越发的重要。因此,我们通常会实现一些监控系统和日子平台去从硬件平台资源系统组建以及中间建。还有像OpenSec还有K8s本身这些自由服务组建,甚至还有到韩束买点的级别去收集这些运行时的监控数据和日子数据。然后以这些日子事件Trace和这些收集到的监控指标作为驱动去发现和定位问题从而达到解决问题的目的。但是如果基于不同状态下的数据或者结合更多维度的数据,更加实时的去发现定位和解决问题。同时基于这种历史的数据和持续产生的这种新的可观测一些数据,这种大规模的数据量去找到这种相应的数据的关联性,从而去分析和解决问题来带来更加有效的去减少这种云平台和云上服务的这些MTTR和MTTF,以及满足不同的这种SRA和甚至更加前置的问题的发现和定位和一些这种决策相应的去解决问题的这种机制,成为我们需要越发去思考的一个方向。我们知道监控系统可以通过设置一些水位来实现告警,告诉我们当前的服务状态是正常的不正常的,但是它没法告诉我们为什么不正常。同时,随着摇测数据的规模或者说日子数据的规模不断的变大,传统人为分析的方式显得由于低下,同时由于人为分析会带来一定的质后性,加上由于数据本身规模的变大以后,甚至难以找出问题根本的原因所在。同时,像这些监测数据、监测指标、日子以及事件,包括吹死等,它的本质都是数据。随着机器学习的不断的成熟和更加广分的应用,Gatterner提出了AI Apps这个概念,从而实现到数据的监控、分析以及执行和自动往响应形成一个完整的避缓,而这个避缓当中最核心的就是机器学习和大数据平台来驱动整个避缓的完成。因此,在这种历史的和每天实质产生的摇测数据在基础上结合大数据和A的技术来实现更加充分的数据的挖掘来找出问题的一些特点、规律和关联性等,从而实现异常检测、性能分析以及更应分析等成为了一种更加高效的实现路径。从去实现这些摇测数据分析的角度来看的话,我们都知道像这些日治监控数据监控指标,以及像这些趣事和事件,它们有一个共同的特点就是都是与时间强相关的,也就是我们常说的实序数据,那我们如何去基于这些实序数据去做分析和预测呢?这里我们把给一个相对简单的问题定义来举个例子的话,比如我们可以通过对过去某个时间点的某个时间段的观测来预测它未来的一个状态和行为,比如这里可以通过对不外1到外T的观测来预测外T加1和倒T加H它的一个行为和状态。从应用的角度来说,它主要是可以应用在像这种趋势预测以及流量分析以及像我们说的前面提的Air Ops,然后从实验的方式的话结合不同场景和需求,我们可以选择像这种回归指数平方法以及像ARIMA等这种实验方式,然后如果从深度学习的方式去实验的话,我们也可以选择像LSTM这种方式去实现。前面我们提到趋势整个Air Ops并很完成的核心是积蓄学习和大数据平台。当我们基于我们的监控系统和日制平台完成了对这些实序数据的采集和存储以后,我们接下来如何去实现围绕这个积蓄学习和大数据平台的数据的分析处理以及预测呢?首先从完成一个AI的任务来讲,它最基本的会包括比如像数据处理和特征工程,然后模型的训练以及最后至于训练出来的模型做推理等过程。其实我们可以发现在整个这个过程中其实对数据的处理和对模型的训练,这是一个相当繁琐,其实需要专业支持的一个过程。为了帮助业界更好的实现基于向计学习和大数据平台来完成这种大规模的实序数据分析的应用,Intel开发和开源的一个叫Colonos的项目,它基于Spark和Rate这种大数据计算引擎和分布式计算框架,然后支持自动化的这种数据预处理和特种工程,然后同时支持向Tenseflow和Patterge这种深度学习框架来完成对模型的训练,然后为了进一步减化这个训练的过程,它还支持向AutoMR这种能力来帮助我们完成对超餐的调优以及最有神经网络价格的搜索,这种基于我们训练出来的模型可以然后来实现最终的推离。除了前面说到的基于深度学习这块的支持,它也支持围绕向基础学习和深度学习的一些预测器和异常检测器,然后还有像这种当数据缺失和不全实,而我们要完成我们的比如说训练时,为了完成这些为了补全这些缺失的数据,它也支持向通过这个Femulator模型器来合成和帮助我们补读我们所缺失的这些数据,所以可以看到通过Colors你可以更加容易的去完成这个围绕大数据的一个端道端的整个基地学习或者深度学习的这个实序数据处理,分析和预测的一个过程,接下来我们通过一个实际的例子来看一下,首先我们可以把这个刊读是我们采议到了一个实序的数据,然后你只需要调用这个TSDataSet把这个数据做导入和处置化,然后通过调印我们提供的这种数据处理和测重工程的这种API来完成这个数据处理和测重工程的过程,接着只需要调用这个像AutoTS Assimator来完成整个AutoMR过程,它会通过完选择和完成这个最佑的超程的调节和Facial选择,然后当这个过程完成之后它会把它放到一个叫比如说这里叫TS Pipeline的这个当中,然后最后你可以通过这个TS Pipeline来完成整个预测和评过的过程得到最终的这个数据,其实你可以看到通过端端的这十几行代码和简单的API调用就可以完成一个端端端的围绕这种继续学习和大数据平台这种持续分析的一个过程并且得到最终的结果。接下来我们从AirPods的一个简单的应用场景来看一下,我们知道我们的运寄处是或者说集群或者容器集群的服务器或者节点,像iA平台它支持像RDT这种来调解这个Laster Level Cache和Memory Bandwise的监控和分配,然后通过PMU的一些Performance Counter来完成对这种执行的指令,开启Mix状况,以及错误分支的这种Track,来Profile一个应用或者服务在CAP上的运行情况,以及更多的这种平台的Rust的能力,然后通过CollectD这种上报这种摇杆的数据在结合对系统各种资源以及系统服务组件以及应用服务组件这种系列的监测和运行式状态的收集来进行多维度和多层的分析,同而得出他们在不同Workload的条件下所呈现出来的特点和一些历史的规律和趋势,在得出这些分析的结果之后,我们第一可以说给到Profile制作一些告知和展示,然后同时更重要的是可以给到一个扩展的调度器,这个调度器是一个Telemetry感知的一个调度器,它可以感知到整个基础设施或者集群这个当前的状态和条件,然后可以结合后面即将调度的或者在运行时的Workload当前资源的需求情况,以整个节点或者运数据中心它这个Resource可用性以及当前的能力做整体的服务的放置和调度,这样来达到这些破的或者说服务,它相应的SRL的要求,同时满足整个节点和服务东西这种整体,就是最大化资源的一个利用。OK,接下来请彭丽叶分享一下浪潮在这个云计说是和云原生的一些Apps的场景和案例。大家好,我是浪潮数据的彭丽叶,我继续给大家介绍一下我们在Apps方面的事件。我们部门是做云产品的,包括Opstack,包括QMS。大约在两三年前,我们已经开始了AirPods在这两个产品上的一些事件,包括Darellet飞行,包括GaE飞行,包括无意识检测,包括去世一测等等。我们内部把智能越为飞行这个模块叫Earth,就是上述功能都集成在这个模块里。另外的话,我们也想把这个模块给进行开源,但是开源的部分可能是只是包括时序数据相关的,包括去世一测,包括予止检测。下面这两个图,就是说我们这两个产品,我们这两个功能在我们系统界面的一些部分的一个展示,去世一测,包括我未来的去世,包括它使用量还能用多少天,包括无意识检测,它可能检测出一场点。下面我从三个方面再详细介绍一下我们的事件,就包括去世一测,包括予止检测,还要包括自盘的故障预测。首先看去世一测。就是云平台吧,往往需要根据业务对未来进行合理的规划,但是把以前多时采用这种人工预测的方式,但越为人员的能力有差异,就往往结果不接触人意。其实但是我们发现云平台的这个性能数据,就包括它自盘使用量这些数据,它都是平稳的序列数据,或者是可以转化为平稳的时间序列数据。其实那这样的话,我们就可以使用算法对它进行预测。所以说我们最开始就使用了耗着温的算法,但是发现HotWintern的算法有些场景下效果非常好,有些场景下效果一般般。所以说我们是又加了Rima,加了STL这些算法。大家看这个训练流程,我们是训练流程是一些定时任务,我们这三个算法是共同跑的。他们是以SMPE,以SMAPE作为平下标准,就针对它每一种算法循环的传入一些坛数,获取最有评价。这样的话就是说对每一种算法就得到了一个对,对每一种算法都得到了一个最有的模型。另外就是说工程师也可以,算法工程师也可以使用NLSTM,就是这种神经网络的算法,训练模型工客户使用。训练模型完成之后,当需要进行在下预测的时候,可以采用这三种算法,然后进行预测。我们这个地方,我们重点是提供一个图形界面,看看哪种算法的预测的跟你合,当然这地方也会给出评价标准,可以根据评价标准,才用最优的模型和最优的预测结果。这种的话,其实像那个,就这种方法,我们内部的产品吧,就是使用在集学或者主机的,自然的使用率的预测,包括CPU,NLSTM,包括存储的都可以使用。另外的话,我们的要扩容,就是说,既可以采用这种预测的方式,当然也可以采用预测的方式。我们内部的产品是,提供这两种方式是供选择的。其实只要是持续预测,持续数据的场景,都是可以使用,都是可以使用这些方法的。继续开下伍预测检测,或者叫动态预测检测,就是传统到一面台吧,就是往往采用这种预测高景的方式,及幼稚圆根据经验,设置高景预测。当江湖水达到这个预测是产生高景,但实际实验过程中发现,它这个预测的设置,太异的预测经验,预测高的话,就是说,预测高的话,就是说,预测低的话,就往往会产生高景风暴,刚要这个原来判断,另外对于在水域斗中的情况下,比如说,我CPU的使用率,充80%,将来10%,预测高景吧,就是往往难以发现。所以说,作为预测高景的补充,然后是我们这地方也开发了,预测高景的功能,什么呢,就是不需要是预测,直接根据历史数据的特征,判断哪些数据是异常点,这种的话,其实有非两种方式,一种是无建筑的方式,一种是有建筑的方式,有建筑的方式是什么呢?就是说,我对历史数据进行标注,哪些是正常的,哪些是异常的,是吧,然后进行训练,得到这个模型,无建筑的方式呢,就是我,不如这一行任何标注,然后是直接根据历史数据的特征,然后是判断哪些点是异常点,这种的话,就是说,无建筑和有建筑吧,就是各有各的好处,无建筑的话,就是说,它这位太位的少,非常简单,但是吧,往往准确率不高,还有有建筑的方式吧,就是说,它需要大量的训练,训练比较复达,大量数据的标注,它训练比较复达,但是吧,好说的时候啊,它准确率比较高,就是,基于上述的就缺点吧,就是说,我们采用了,就是说,无建筑学习和有建筑学习,这么结合的一种方式,当数据来了之后,当江湖数据来了之后,我们会,基于,三四个万元则,主要是回归,或者号的模型,或者是以色列,就这样,这些无建筑学习的方法,然后是,判断数据有没有异常,如果没有异常的话,我们输出,如果有异常的话,我们再,经过,查基布斯的模型,就提取,就是,这些训练数据的,就同期了,你和,就是,分配的这些特征,通过查基布斯的模型,嗯,这个地方是,加以不反断,就是说,我们,训练出,一个收敛的,查基布斯的模型,如果是有,有收敛的,查基布斯的模型,然后是用,查基布斯的模型,如果没有的话,就是,嗯,上面四种方法,判断的点,就是,我们就认为异常点,嗯,因为谈着训练,就需要,大量数据的标注,这块还是比较难的,嗯,不是让难的,比较麻烦的,训练数据的选举,和这个,标注功能,其他,所以说,就是说,我训练,训练过程中,它有哪些数据,嗯,也可以使用,这种算,这上面这三,这四种,无线准字的方法,进行一个筛选,然后是,筛选出来的数据,判断有异常点了,可以控制为标注,然后再供,查基布斯的,然后进行训练,嗯,整个过程是这样的,嗯,然后,然后使用了场景吧,像我们内部吧,就是说,上一些,织织的爆灯了,呃,包括,呃,CPU使用率的,一下一个堵架了,呃,这种的话,呃,多进行的位置检测,嗯,呃,下面再看一下,磁盘故障预测,其实,对一个数据中心来说,磁盘的故障,其实,也会影响到,数据,中心的稳定性,所以说,它磁盘的故障预测,也是,呃,这个磁盘故障,是预测什么,就是说,我们一般,说到磁盘故障预测,就是说,我提前十四天,呃,预测说,哪些四盘,会发生故障,然后是,以便于,就是提前更换磁盘,或者是,进行数据的别分,等等吧,这话的话,其实,现场中,我们也没,积累够,呃,逐步的数据,呃,呃,我们是,呃,呃,下来就说了,包括,呃,这是,举着三个例子吧,基于SWM,基于,叉集不死的,基于,呃,DNN加叉集不死的,呃,这只是我时间中的,呃,三种方法吧,其中的三种方法,其实,我们当时实际上,实际上,实际上,很多,很多方法,呃,呃,这里面吧,其实是DNN加叉集不死的效果,可能是更好一些,呃,呃,相当于基于坦商网络,和那个,叉集不死结合的,这么一种方法,它的训练流程呢,就是,首先就是,呃,共建,深度学习的特征网络,就,包括,就是,把smart数据,呃,应说到高位空间,呃,通过,训练深度,呃,深度神经网络的,飞类器,就得到它的那个,特征网络,呃,呃,再使用,特征网络,提取业函的特征,呃,这些特征提取了之后呢,就是,把这些特征,输入到叉集不死的模型中,然后是,对叉集穆斯的模型,然后是,输入各种的台数,然后进行优化,得到对中的叉集不死的模型,呃,下面就是,模型训练好了之后,就可以进行预测,呃,对新的布局,就让输入起来之后,也是提取上述特征,上述之后,也很特征,然后是,进行一些,进行一个故障的预测,呃,预测哪些盘,呃,在未来14天之内,发生故障的概率有多大?嗯,下面说说,呃,我们这些年,在Alps的时间方面的一些心得嘛,呃,主要是这两方面嘛,呃,这种的话,其实,呃,我们的故障,就是,往往也是比较理想化的故障,在现实场景中啊,这个故障是,非常重要的,呃,特征的话,就是很容易,嗯,带来一些物出发,所以说,我们的做法,是,就是说,将,气格,预为数据的智能分析功能啊,就作为一个通用模块,先集成进去,呃,可以快速的进行优化,嗯,进行弹术调优,可以快速的看到它的结果,这样的话,我们就是,嗯,带预行一段时间撑,我们就可以看出,这些模型的好坏,这样慢慢慢慢的,呃,带,作为一些定时任务,呃,第二个我想说的,就是说,可能是,一些预为场景的积累啊,比一些,算法的积累,可能更重要一些,呃,预为人员,如果是,对这种场景非常的,理解得非常深刻,它就是很容易,提取到这个场景上的一些特征,这样的话,就是说,这种特征,这种特征,可能比我们,简单的通过算法,这种体育特征,可能会好一些,所以说,第二点我想说的是,预为场景的积累,可能比算法,更重要一些,嗯,行,那我的分享有这么多,希望能对大家有所帮助,嗯,谢谢大家。