好 那我们现在就正式开始尊敬的各位来宾 大家下午好今天我们为大家带来的主题是在金融行业建设云元生隐私计算平台首先做一下自我介绍我是来自普发银行总行信息科技部数据技术团队的金银阳今天和我一同参与分享的还有来自我们团队的数据工程博士那么我们今天很荣幸能够在CryptCon这样一个场合下为大家分享普发银行在建设我们自己的云元生隐私计算平台中的一些新路历程和经验那现在就让我们正式的进入到此次的话题当中那近年来数字化转型已经成为了金融业的一个重要的发展趋势像大数据 人工智能 隐私计算等等这些新兴技术在传统金融行业当中的一个应用是切实的推动了我们传统的金融业从数据和信息驱动迈向更加智能化和精细化的一个数据金融服务那么比如说从数据的金融服务效率提升方面通过数据驱动我们作为金融机构就可以更好地去理解到用户的需求去优化我们产品的设计提高服务质量那同时数据分析也可以帮助我们去实现更加自动化 智能化的业务流程达到降低运营成本和提升服务效率的作用那么在风险控制的层面借助大数据技术我们金融机构就可以收集和分析用户的行为数据财务数据等等这些从而能够更准确地去评估客户的一些信用风险和市场风险这有助于我们去制定更为科学和合理的风险管理的策略降低坏账率提高服务的质量那同时在智能服务的推荐领域通过对客户的一些数据的深入挖掘和分析我们可以做到更深入和更全面地去了解客户的消费习惯兴趣爱好等等从而能够为客户提供更加个性化和更精准的金融产品服务那最后利用人工智能 区块链等等的这些先进技术数据驱动金融服务可以帮助我们去发掘潜在的市场的需求和商业的机会从而能够使新产品的研发业务模式的创新提供一个精准的数据支持实现金融业务的创新发展那么在整体的一个数据驱动金融服务的背景下我们普发银行也积极地沉淀了包括AI BI在内的等等各种数据智能和业务共享的一些能力去构建我行自由的一个数据驱动的金融服务体系首先在平台层我们集成了包括存储引擎 计算引擎调度监控和运源生等等的这些先进技术同时在数据层我们是聚合了交易数据 行为数据辟料数据实施数据 结构化数据 费结构化数据图数据和流数据等等的一些大数据去提供海量的大数据分析支撑在这些底层技术 资源和数据的支撑的基础之上我们进而去输出了智能营销 封控 洞察 交互 决策等等的人工智能产品从而实现全行的数字化经营和各个条线的协同发展一同去打造我们互惠共营的一个数字生态上面简单介绍了我行数据驱动金融服务的整体的一个体系背景在此背景之下随着我们数据计算应用的逐步扩大和国家在政策上面对于数据流通它的要求日益趋颜我们对于数字隐私保护的需求也就越发的旺省2021年8月中华人民共和国个人信息保护法正式出台明确了数据在流通过程中要维护国家数据安全保护个人信息和企业商业信息秘密的相关一些要求于此同时在2022年1月的开始国家也出台了一系列关于利用好数据资产的相关规划和意见我们知道隐私计算是一种平衡数据利用和安全保护的技术在在保护数据安全的前提下打破了各方的数据孤岛从而实现数据的一个高效流通因此在当下这种号召建设数据经济同时响应数据安全监管要求的一个时代背景之下隐私计算技术就恰恰成为了破解数据安全合规需求的一个关键路径隐私计算在概念上面它包括整个的计算以及一些必要交互过程中的中间数据和结果的隐私保护这里我们可以利用加密等等这些密码学的技术进行逻辑上的保护对于隐私保护 隐私计算它包括了对计算过程的隐私保护也包括了对计算结果的隐私保护对于计算过程的隐私保护是保障多方安全计算过程全程的一个数据的安全性和私密性在计算结果上面保障了它的计算结果不去泄露其结果运函信息之外的任何其他的信息同时也确保了非结果拥有方也没有办法去获取别人的计算结果因此我们说隐私计算是实现了对计算的正确性 保密性和完整性的保护目前基于加密等等的密码学技术的隐私计算技术大概可以分为两种模式第一种是以差分隐私 联邦学习为代表的一个客户端和服务端联同计算的一种模式另一种是以多方安全计算全同代加密为代表的不通过服务器实现客户端之间的协同计算的一种去中心化的计算模式其实我们从图中可以看到隐私计算它是涉及到了多种的密码学技术各种技术从算法到通讯架构也互不相同隐私计算平台是需要能够做到兼容不同的隐私计算技术与算法的一会我们在后面也会详细地再去展开一些相关的技术实现上面是简要地介绍了一下隐私计算技术的基本概念隐私计算技术对我们银行业又有哪些价值呢在这里我们认为主要有以下三个方面首先是数据的高保密性当前我们金融科技探索的一个重要课题就是能够保证银行业数据不出狱的一个高度保密性使数据可以在合规的前提下去自由地流动并且保证数据的使用是符合监管要求的隐私计算它就通过比如说对称加密、非对称加密、哈西韩数这些安全的加密算法使我们可以保证数据在传输和存储过程当中的安全性同时通过应用多方的安全计算等等的隐私计算技术对数据进行分布式的计算是可以确保我们整个计算过程当中数据不出狱第二是安全共享隐私计算是一种在保证数据安全和隐私的前提下去实现数据在各个参与方之间加密传输和流通的技术通过隐私计算我们可以在不泄露原始数据的一个情况之下和其他的金融机构、互联网企业、政府机构等等不同的这些数据员去进行数据的共享 实现数据的一个合规流动最后是精准决策通过多方数据的隐私计算的融合各个数据员的数据特征和数据质量都可以得到提升从而就可以进行更加高效和更加精准的数据分析和预测因此在调研了解到隐私计算技术对银行业这整个金融行业的巨大作用之后我们普发银行也开始着手建设符合银行业标准的一个隐私计算平台我们认为普发银行的隐私计算平台在功能上需要做到能够去连接各方的数据串联起行内外的各类的业务场景同时提供对外的数据合作连接的支撑去打造跨机构的互联互通的一个共享数据生态首先在数据价值的融合上面我们需要做到数据的实施融合多模式分析 跨机构共享还有数据的国密标准的自动加密在资产的精确固执上我们需要做到资产的确权跟踪分类登记实现资产的自动固执并且能够对资产的调用进行监控和分析在场景的灵活串联上面我们需要能够做到沉淀优秀案例提供高频通用模板实现多个场景的串联执行满足灵活的去满足各类的需求目标最后在机构的统一管理上我们需要能够保证各个机构的统一接入支持各方的机构对接并且提供一些项目全线分配项目资源统筹等等的机构管理功能然后是在共享生态的打造上首先我们是要确保全域数据的一个合规的调用同时也去支持多元机构的便捷扩展从而能够实现数据价值输出以及各方合作的一个互利共赢基于之前所述的这些隐私计算技术在结合普发银行自身对于数据合作和数据安全的一些需求从2021年起我航舰设了述用于进入行业的波塞东隐私计算产品为进入行业互联网的行业以及各类实体的产业去提供便捷安全和有效的数据应用通道提升各行业的数据精英化能力那么目前我们平台具备了丰富的隐私计算技术去适配不同的隐私计算场景包括用于目标客群精准匹配以及隐私计算安全取回的隐私求交功能用于潜在高价值客户挖掘以及多方风险联合识别的联邦建模功能用于目标客群联合分析以及客户画像联合构建的联合分析功能以及用于数据标签的实施查询以及数据标签核验的逆中查询功能那么目前我们波塞东隐私计算平台也已经通过了信通院CFCABCTC等等多家权威机构关于隐私计算产品的评测与认证同时我们内外部的多个合作案例也融获了行内多个奖项那截至目前我们波塞东隐私计算产品已经受到50亿家互联网通信运营商以及实贴企业的认可并且开展相互的合作项目那么以上我们为大家介绍了我行波塞东隐私计算产品的一个整体的建设背景和思路下面就将由我们团队的公乐成博士为大家详细地展开我们平台的整体架构和一些技术细节有请公布大家好 我是来自普发银行总航信息科技部的数据工程师公乐成接下来由我来介绍一下普发银行云延伸隐私计算平台的一个基础架构正如前面金老师所言银行隐私计算平台在保证数据安全的同时实现了数据共享但是建设一个安全稳定高效的隐私计算平台也面临着诸多的难点和挑战在波塞东隐私计算平台建设之初我们调研了业界的各种开源解决方案发现了以下建设问题与难点第一就是算力利用率问题隐私计算中是涉及到数据的加密和解密过程包括安全计算还有联邦建模都需要大量的算力并且隐私计算涉及大量的数据交互过程单任务计算时间长如果单任务长时间占用算力资源但实际算力资源消耗不高的话会导致算力资源眼中浪费第二是存储运为成本问题隐私计算中会涉及大量大规模数据的读取与存储需要同时满足高性能与高可用的要求然而现在目前主流的隐私计算的开源方案没有对此类问题进行一个妥善的解决第三是数据的安全问题进行隐私计算的数据级往往涉及商业秘密需要实现数据所有权和使用权的分离银行在开发算法时会将一些算法开发工作外包给专业的AI公司因此平台需要保证外部的算法工程是无法接触到于它开发算法无关的一些数据级的使用第四是资源隔离问题隐私计算平台需要为不同用户提供独立的计算资源确保用户的计算任务不会受到其他用户的影响这需要平台对计算资源进行一个动态的分配和调度同时采用虚拟化的技术来保证计算资源的可靠隔离第五是监控缺失问题由于隐私计算任务的运行时间长隐私计算平台需要保证系统稳定性确保计算任务的正常进行监控的缺失可能会导致系统故障性能下降等问题影响用户体验然而目前开源的隐私计算框架也不具备性能监控的功能第六是算法益购性问题正如前面所言隐私计算的算法非常重多并且各类算法的通讯架构算法运行环境还有平台的运行环境都是益购的单就隐私计算平台单一的运行环境和网络架构的话是无法满足多种隐私计算技术同时运行的一个需求基于上述的困难与挑战普发银行在2021年基于开源的Fate联邦学习框架建设了普发银行隐私计算平台的技术架构该架构如图分为四大模块分别为作业调度于算法运行模块分布式计算与存储模块网络通讯模块以及监控模块在该架构中的每个隐私计算作业会被拆分成若干个隐私计算的算法任务每个算法任务是常铸的算法运行坡的中的一个现成由API Server调度器实现算法任务及隐私计算作业的调度每个算法运行时都通过Fate框架中的Aggaro分布式计算框架进行一个计算通过调度区域分布式计算引擎的集成这个框架解决了算力利用率不高的问题此外我们还通过NAS挂载分布式计算引擎存储的方式解决了隐私计算过程中存储的高可用问题最后通过在整个框架中集成PromiseOS與Graph实现了平台运行性能的部分监控可以看到整个基础框架一定程度上实现了隐私计算平台的远远升化然而可以看到隐私计算平台的初级建设依然存在以下问题一是我前面说到的算法兼容问题隐私计算是涉及到全同的加密不经意传输差分引擎联邦学习等多种移购算法的不同算法可能是由不同的算法供应商提供的后端的运行的分布式框架算法所需的运行环境都是移购的但之前我们所提到的架构中算法运行于一个常铸的算法运行破的中只能运行单一的隐私计算算法难以满足算法兼容互通的需求第二是数据存储问题隐私计算中要求数据访问需要高吞吐和低延时来保证整个隐私计算的效率但初期我们挂在NAS存储的方式虽然能一定程度上满足高可用的需求但是需要很高的内部网络带宽才能满足高吞吐低延时的存储需求因此我们需要一个云原生的存储解决方案同时实现计算存储的高可用与高性能第三是架构结偶问题可以看到之前的这个平台的隐私计算作业调度层网络通讯层 分布式计算框架层以及存储层没有完全结偶一来分布式计算层与存储层的偶国设计不利于未来计算与存储资源的扩容二来每个算法运行时是常铸破的中的一个现成无法实现对单个算法运行的准确的资源监控同时作业调度层与算法运行层的高的偶合无法实现对其他隐私计算算法的兼容因此我们需要将各层面完全结偶实现平台的完全云原生针对初期隐私计算平台建设的问题我们重新构建了云原生化的隐私计算平台如族所示平台共分为六大模块分别为工作楼编排与解析 作业控制与调度任务运行时 网络通讯 分布式计算架构以及存储层每个模块我们都针对云原生做了对应的设计在工作楼编排与解析模块 我们使用CubeFlo实现工作楼中每个隐私计算任务上下有关系基础运行进向以及参数的自动解析从而实现算法易购兼容在作业控制与调度模块 我们使用Vocano实现各算法容器调度运行于易购的分布式计算框架中以及算力的高效利用在网络通讯模块 我们使用Invoid轻松实现路由管理与网络通讯与安全认证最后在存储模块 我们使用Paris确保平台存储的高性能与高可用下面我将从云原生调度 云原生存储以及云原生网关三个方面详细描述各云生组件在隐私计算平台中的作用首先是云原生调度CubeFlo plus Vocano从图上可以看到一个隐私计算作业可以被定运为人一个工作流其中每一个节点可以被称作隐私计算算法组件每个组件会处理不同的算法功能逻辑比如说图中的数据预处理 特征工程 数据求交 数据建模等每个组件使用的隐私计算算法不同因此组件都会以Doc进向方式被打包以容器方式运行通过引入CubeFlo pipelines平台用户就可以自由的构建隐私计算工作流CubeFlo pipelines将隐私计算工作流中的依赖关系与参数自动解析为对应破得的压门件从而为用户提供一个屏蔽K8S底层的高效解译的原生操作此外由于每个隐私计算算法是由Doc进向进行分装的同一工作流中就可以编排不同情况商提供的隐私计算算法从而实现了算法兼容在Pipelines解析完成后所有算法组件会交由Vocano进行作业的控制与调度Vocano是一个基于CubeFlo pipelines构建的增强型高性能计算任务P处理系统在原生CubeFlo pipelines的基础上它增强了计算任务的悉量创建和生命周期管理公平共享拼Back调度等方面我们借助Vocano可以利用多种调度策略实现平台算力的充分利用极高整个平台的运行效率第二部分是云原生存储Paris针对隐私计算存储高性能与高可用的要求我们使用Paris来进行云原生存储挂在于管理首先介绍一下Paris项目Paris Datastore云原生存储项目是由普发银行、上海道客和奥地林比特公司共同发起的开源项目这里在Cubanetis框架下实现完善的本地券存储服务Paris使用云原生架构部署在Cubanetis上实现了全套的Cubanetis CSI存储架构聚合节点内的存储戒指提供企业级存储特性服务有状态应用例如存储值高可用的多副本智能调度以及快速共上千亿等Paris的后端是基于DRBD和LVM等快存储技术IO路径短而且没有数据的结构转换所以相较于之前初始的平台架构中挂在NAS文件存储的方式Paris有低延时高吞图以及高并发的优势能显入的缩短隐私计算中数据上传数据酋焦以及模型训练所需的时间右图是分别原先NAS的NFS挂载分布式存储以及Paris双副本挂载两种方式在相同条件下的性能比较图可以看到在进行隐私计算联邦学习任务时各环节使用Paris双副本挂载后所需的时间都下降了50%左右此外Paris是和Cubanetis高度偶和的并且实现了节点清和性并且实现了节点清和性基于本地卷的副本高可用以及基于CubanetisAPI的故障切换和迁移因此它也一定程度上满足了平台的存储高可用需求最后是云原生网关Invoid左图是目前波赛东隐私计算平台的通讯架构可以看到平台中所有的隐私计算任务都会通过Invoid与外部机构进行通讯与数据交互我们选择Invoid作为平台的云原生网关由以下几点原因首先由于隐私计算涉及到多个机构之间的数据合作因此平台需要进行多机构的路由管理并且多个隐私计算算法模块再进行机构计算任务时涉及到服务的动态暴露Invoid的XDSAPI可以轻松地对路由进行一个动态设置和修改以满足不断变化的路由管理需求并且不需要重新加载进程此外隐私计算平台不同算法设计的机构间通讯协议不同Invoid对多种通讯协议诸如HTD-1.0、HTD-2.0、GRPC等的支持可以满足整个平台对于网络通讯层的统一管控最后隐私计算对于机构间通讯的安全性要求提高身份验证和授权是隐私计算的必经步骤Invoid对双向TOS、O-OSM-2.0、TOCANS的支持可以为平台安全性提供一根保障以上便是普发银行整个云烟生隐私计算平台的总体介绍对未来隐私计算平台的进一步建设我没有以下创想首先是GPU资源的云烟生目前的隐私计算基本集中于CPU与内存资源的使用与调度然而目前大模型的涌现使我们看到了大模型和隐私计算结合的可能性在探索大模型与隐私计算结合的过程中未来隐私计算平台必然会涉及到GPU资源的云烟生调度目前GPU云烟生调度业界也已经有了比较成熟的方案如何将这些方案与隐私计算结合将是未来一个比较关键的建设与研究方向第二是边缘计算我们看到现在5G的补级给智能设备及中端带来了爆炸式等数据增长而这些中端上的数据在未来也会发挥越来越重要的作用目前的隐私计算架构显然还无法满足在边缘端部属与应用的要求如何设计一套满足边缘计算要求的架构也是未来的建设与研究方向之一最后是Service架构目前的隐私计算平台架构很显然是比较笨重的难以在基础IT设施较为薄弱的机构中进行一个推广我们正在考虑后续设计更轻量化成本更低面向应用本身的Service隐私架构从而拓宽数据合作渠道更好的负能业务以上就是本次分享的所有内容感谢大家的聆听如果大家有问题可以举手我会做一次解答谢谢大家你好我这边有应该两个问题吧第一个问题是因为隐私设计到多方的调度对吧您刚刚讲的是可能一个单方内部我可能用couple floor加vulcano去调度跨机构之间调度是怎么完成的这是第一个问题还有第二个问题就是因为隐私设设计到多方那么一个很重要的问题它的可观察性怎么去做因为不只有我本方的节点对吧还有其他方的节点尤其是当然差远方多了之后可能任意一个节点它这个初固站的概率都可能会变高那么在可观察性这一块有没有什么经验可以分享就这两个问题好的谢谢首先第一个问题关于多方的调度现在整个couple floor加vulcano是运用于整个普发银行这个作业调度而关于到多方的调度其实是对方有一个对等的一样跟我们的一个平台然后它这个我们在进行多方调度的时候会存储一些对方的一些作业的运行信息或者是类的信息然后由一个多方的调度进行一个统统一的调度然后本方就是由couple floor加vulcano进行一个本地的调度而多方是由一个统统一的多方的调度进行一个总结的调度这是第一个问题第二个问题也是我们现在比较关注的问题就是因为设计到设计到多方的一个节点的互通如果对方节点出了一些故障我们其实现在按照目前的技术是无法观测到的也是我们接下去希望能进一步研究的一个方向这就是对上面两个问题回答谢谢你好 特别感谢你的分享就是我问问题我看咱们前面架构图里边有一块是花了rain的我想了解一下rain咱们用在咱们隐私巨蛋的什么场景然后rain有没有和底层的运烟生体系包括poreals有一些联动我们现在rae是就像我之前提到的每个隐私计算的算法是由不同的算法提供商提供的有些算法提供商有可能后端的分布式计算框架就是rae那么我们为了兼容它这种算法就要对接后端的rae的分布式计算框架因此rae是在整个隐私计算框架中提到这个作用而rae当中的设计到一些数据存储我们是用poreals进行挂载的然后也能保证整个rae计算集群的一个高可用与高高性能咱们有实现像couple flow和rain的联动吗现在整个couple flow和couple flow加上Vaccano的一个调度还是一个试验期间然后应该会做进一步的调试目前只是一个基于couple flow加Vaccano加Spark的一个调调度的实现OK 好 谢谢好的我们问一下咱们现在以私计算里面的fit就是咱们用了挨个肉对的后面fit的咱们的引入是有什么想法吗还有另外一个像现在加密里面你的数据会放大吗就计算量会放大很多咱们现在这个计算里面你用原来的CPU计算的时候你的放大的这种数据级的比例关系和原来参数关系模型会有什么参考吗首先是公共关于fit的考虑fit在我们最初期的版本里面是用的agro的计算框架而fit在后续其实已经推出了基于Spark分布式计算框架的一个版本所以后续我们直接使用Spark分布式计算框架的fit版本来做进一步生产验证而对于数据量放大的问题其实初期我们用fit计算框架的时候我们发现单一数据会放大10倍左右所以这种高数据量更需要一个高吞吐量和高性能高可用的存储引擎所以我们会才放弃了原来NAS挂载的方式而转变为现在Pres进行一个分布式存储挂载的方式这样能更好地保证一个建模的效果以及效率之前NAS挂载因为数据量太大它会导致某些任务运行过久或者我的存储飘移了然后就会导致任务失败而这个计算成本是业务人员无法接受的所以我们就改变了数据挂载的方式目前横量下来还是OK的这就是我最后所言的整个与大模型的一个隐私计算和大模型的结合是我们未来正在努力和研究的一个方向所以还要继续地验证和考量好 谢谢喂 您好我想问一个基础的问题就是咱们的数据质量这边是怎么用什么功率去管理的包括和多方的原数据可能都是不一致的这块有什么好的经验吗谢谢首先普发银行的数据质量是有一个专业的数据传统团队然后保证数据质量的稳定对于合作机构的数据质量来言我们其实无法进一步地对他们有所要求但是在线下沟通的时候让他们尽量保证数据质量或者我们提供一些标准化的数据抽取的脚本让他们符合我们数据质量的要求只能这么做如果其他老师没有问题的话如果其他老师还有线下还有问题的话可以线下交流这次的问答环节到此为止谢谢大家