 Our next speaker believes that Thepsa have found a way to do this through their cloud process history. A SAS, using the latest cloud technology. To tell us more, we have Alberto García, a big data and analytics expert. Alberto, bienvenido. Hola, Nicolás. Sé que va, nos volvimos con la ponencia en español, lo sé que adelante. ¿Qué tal? Buenas tardes, allá vamos a ir preparando la presentación. ¿Me veis, Nicolás? Sí, nos vemos todo. Perfecto, pues ya estoy presentando. Bueno, lo primero de todo, buenas tardes, buenas tardes a todos. Muchas gracias por haberos conectado a la sala garaje. Y bueno, hoy vamos a hablar de cloud process history. Es un producto que hemos desarrollado en transformación digital. Es un producto muy chuli. Y bueno, os vamos a explicar de qué va esto de CPH o cloud process history. Es una de las principales características. Y bueno, luego si tengo algo de tiempo, pues os presentaré, os haré una pequeña demostración. Así que nada, ya que no os puedo ver personalmente, sentaros, disfrutad, ya hemos un día bastante largo. Tomaros una cervecita y disfrutad de la sesión, espero que os guste. Pero primero de todo, vamos a hablar de lo que es el mundo OT y el mundo IT, ¿no? Porque en Cepsa tenemos estos dos mundos. Por un lado, son mundos de los cuales nacen los datos, ¿no? Emanan los datos de ellos. Por un lado está el mundo OT, que es tecnología 100% industrial, donde tenemos desplegadas toda la infraestructura y toda la tecnología que nos habilita el poder trabajar sobre diferentes procesos del mundo de manufacturing, del mundo del refino, etcétera. Todos esos sistemas SCADA, esa sensórica, esos PLCs, toda esa tecnología o ese entramado industrial se encuentra dentro de este mundo. Y de ese mundo nacen en tiempo real los datos. Y por otro lado tenemos lo que es el mundo IT, que es un mundo más conocido entre todos y es un mundo más tradicional, digamos, compuesto de bases de datos relacionales, aplicaciones web, esos sistemas RP como SAP o esos sistemas CRM, data warehouse, data march, etcétera, todo eso se encuentra en más el mundo, el mundo IT. Entonces las nuevas tecnologías Big Data y lo que es el paradigma Big Data, lo que nos permite entre otras muchas cosas, es que puedan converger estos dos mundos y podamos integrar los datos que nacen en cada uno de estos mundos, podamos integrarlos con estas tecnologías y estas nuevas herramientas. Y con ese fin nace Cloud Process History. Si me preguntáis qué ese Cloud Process History, CPH, es un ecosistema de datos que nos va a permitir hacer muchas cosas, pero la primera de ellas es poder integrar todos los datos que nacen del mundo IT, en concreto el mundo IoT o el mundo IoT, toda esa sensórica, toda esa telemetría, todos esos procesos que se encuentran en las instalaciones industriales, pues nos va a permitir poder conectarnos e integrarnos a esta información. Es un producto, por supuesto, 100% SaaS, desarrollado en la nube, en concreto en la nube de Amazon y vamos a poder integrar, como os decía, todos los datos de las instalaciones industriales, no solo nosotros porque nos lo estamos aplicando a nosotros mismos, en nuestras instalaciones, en Cepsa, pero también podríamos aplicarlo en otro tipo de instalaciones de otro tipo de compañía o en otra tipología de empresas que tuvieran por ejemplo domótica o sensórica emitiendo en tiempo real, etc. Una vez hemos capturado esa información, CPH lo que nos permite o lo que busca es poder disponibilizar esa información mediante la apificación para que esos datos puedan ser consumidos, puedan ser consumidos por las empresas, por el negocio, por los usuarios para poder dar valor sobre los datos y uno de los fines, uno de los casos de uso es poder realizar analítica en tiempo real, poder hacer algoritmia, y al final CPH lo que nos permite es acelerar ese proceso, ese proceso de integrar los datos y ese proceso de poder trabajar con ellos y dar el máximo valor posible, todo ello por supuesto en tiempo real. ¿Cómo funciona CPH? Como os decía, tiene dos partes, tiene la parte de entrada de información donde hay un componente clave, luego lo comentaré es el módulo ingestion as a service donde vamos a poder integrarnos con ese mundo industrial o ese mundo domótico por protocolos fabriles como MQTT o PCUA o por protocolos más tradicionales como el HTTP o el SFTP. Pues esa es la primera parte, el poder conectarnos y recoger esa información, la parte de ingestion propiamente dicho. Posteriormente, CPH nos da la posibilidad de hacer ETLs, de poder tratar el dato y poder enriquecerlo, poder macerarlo, poder refinarlo, esta es una de las características. Y por supuesto el último punto es la democratización del dato, que es el cómo yo puedo ofrecer o cómo CPH puedo ofrecer los datos a los distintos puntos de la compañía. ¿Cuáles son sus principales características? La primera es que es un producto que es totalmente gestionado, no hace falta tirar ni una línea de código para desarrollar una ingesta o un ETL para poder consumir los datos. CPH ya nos da a disposición la posibilidad de configurar esto a golpe de clic, sin necesidad de disponer de un equipo altamente cualificado de arquitectos cloud o de ingenieros, etc. Esa es una de las principales características, por supuesto que es cloud. CPH escala de manera horizontal y en base al uso, no es lo mismo instalar un CPH, por ejemplo, en CEPSA, donde tenemos actualmente más de 300.000 señales emitiendo en tiempo real y para eso necesitamos un procesamiento efímero potente, que por ejemplo aterrizar CPH en una empresa donde a lo mejor tienes una instalación industrial donde no llegas a más de 500 sensores. Por supuesto, capacidad ilimitada de almacenamiento. El almacenamiento es una de las ventajas que durante muchos años nos da el Big Data y esto lo tenemos aquí. Pago por uso, este es el concepto. El concepto de pago por uso en cuanto a la entrada, en cuanto a la ingesta de datos y en cuanto a la salida del dato, por supuesto más y más seguridad, beneficiándonos de la seguridad que nos da la acta pública y utilizando, como hablaron las últimas herramientas y servicios que nos ofrecen las plataformas Big Data y los servicios en concreto de Amazon Web Services. Empoderar a nuestros equipos, a los equipos de negocio dando la posibilidad de que hacer de una manera muy sencilla a los datos y que empiecen a trabajar sobre ellos y aplicar y a dar el valor. Esto es una de las grandes ventajas. Y luego otra, la conexión o plugabilidad, no sé si esta palabra, bueno, yo la comento mucho, seguramente no esté la raíz, plugabilidad, el plugin, la manera, la facilidad de conectar. Podemos conectar CPH tanto en su parte de la izquierda a instalaciones industriales, al mundo IT, a un RP, a una base de datos relacional, como puede ser un SQL Server o un Oracle, pero luego también, en la parte de la derecha, el cómo podemos consumir los datos desde CPH, pues lo podemos realizar con herramientas ofimáticas, como Microsoft Excel, o herramientas de analítica avanzada, herramientas de business intelligence e incluso, pues bueno, la posibilidad de utilizar las APIs de consumo que tiene CPH para desarrollar nuevos productos a partir de las APIs de datos que ofrece. Los principios son los pilares, son los que os comentaba. En la parte de la izquierda, tenemos la captura de la información, ese almacenamiento de manera limitada, la posibilidad de transformar, enriquecer los datos, y como no la validación de los mismos. Y en la parte de la derecha, lo que podemos habilitar es la conexión y el acceso ágil a esos datos, el data discovery, que los usuarios, los negocios, los distintos perfiles que existen en una empresa, puedan consumir y descubrir los datos que son almacenados en Club Process History. Enriquecimiento de los datos, no solo con los datos que se almacenan en CPH, sino con otros datos que no tienen por qué estar dentro. Y bueno, la parte final es la entrega, el valor en el mínimo tiempo posible, porque nosotros en transformación digital, consideramos que el Teintu Market aquí es esencial. Cuando se hablaba del concepto de democratización del dato, es algo que para nosotros en CEPSA es fundamental y al igual que CEPSA, que es compañía Tadriben, entendemos que cualquier tipo de compañía que trabaja con datos tiene que tener muy claro este concepto. Una vez que nosotros hemos ingestado, hemos transformado o hemos enriquecido nuestros datos, y los tenemos almacenados para el consumo, pues ahora viene el y ahora qué, pues en el ahora qué nosotros lo que proponemos son distintas maneras de consumir y acceder al dato. Digamos que tenemos como cuatro pilares esenciales, por un lado está la parte de la derecha lo que son los Datalab que son entornos de laboratorio, analistas de negocio, datascience, ingenieros de datos. Cualquier persona que haga laboratorios con sus datos pues va a tener herramientas de analítica básica, luego las enseñaré como superset, que es una de ellas la que tenemos integrada o te podrá acceder y trabajar con herramientas de analítica avanzada como un rapid miner o un canaim donde lo que hemos desarrollado en CPH son conectores y extensiones para que rapid miner pueda consumir los datos de CPH de una manera sencilla y segura por supuesto aquellas personas que se sientan cómodas trabajando con IPaison tendrán un entorno Jupyter para hacer exploratorios con sus notebooks para empezar a modelar y empezar a crear y estas serían las posibilidades en cuanto a la parte de laboratorio. Lo que respecta la parte de visualización pues bueno tenemos varios sabores en la parte de visualización por un lado nosotros hemos desarrollado un custo monitor donde podemos consumir en tiempo real series temporales de telemetría, de señales eléctricas de sensores, etc. por otro lado lo que tenemos en Bebido es un grafana entendemos que nosotros de hecho lo utilizamos porque las compañías que trabajan con mundos hotes o que trabajan por ejemplo consumiendo grandes volúmenes de logs necesitan este tipo de herramientas de monitorización y el grafana funciona muy bien y luego por otro lado herramientas de business intelligence nosotros lo que ofrecemos son nuestros conneteros ODBC o JDBC para poder engancharlo con un Power BI con un Wichai o con un Metabase cualquier tipo de herramientas de business intelligence puede ser de una manera sencilla conectada a CPH y luego la otra parte importante del consumo es nuestro portal de APIs que es un portal de desarrolladores donde el desarrollador va a poder logarse a CPH va a poder descubrir el inventario de APIs que tenemos de consumo de información como la parte de infestas y luego no nos olvidamos de las herramientas ofimáticas que son super importantes y necesarias y también tenemos ahí un componente un plugin de Excel para poder consumir los datos de una manera cómoda y sencilla ahora vamos a hablar de la arquitectura de CPH a alto nivel en el mundo de los datos que tenemos en Cepsa CPH admite una tipología de datos datos semistructurados estamos trabajando también a día de hoy en el roadmap para poder trabajar con datos totalmente desestructurados como imágenes, audios, vídeos, etc pero a día de hoy lo que podemos hacer es recoger datos en tiempo real de sensores, telemetrías logs, cualquier tipo de métrica en tiempo real o batch para acceder a sistemas de business intelligent como DataMarch o DataWareHouse datos que nacen en los rps como por ejemplo en nuestros app o en CRMs o cualquier tipo de datos de operaciones esta es como la capa de datos de fuentes que recogemos a día de hoy y lo primero que tiene CPH son esos conectores que habilitan la transmisión de los datos CPH es capaz de comprender protocolos nativos industriales como es MQTT o SOPCUA y también podemos trabajar con otro tipo de protocolos más conocidos, a lo mejor por el resto del mundo del software y la informática son protocolos SFTP o HTTP esto es muy importante el utilizar protocolos genéricos para poder conectarnos a ese tipo de instalaciones cuando accedemos a la consola de CPH lo que tenemos es el módulo de ingestion aservice que si tengo tiempo me gustaría enseñaros y ahí lo que vamos a poder hacer es configurar una ingesta en modo setup desde una consola sin necesidad de tirar ninguna línea de código adicionalmente tenemos APIs para poder para que los desarrolladores puedan realizar ingestas via APIs los datos estamos trabajando en ingesta los datos serán almacenados en un formato RAW en el sistema posteriormente lo que hacemos en CPH es el refinamiento del dato donde tenemos distintas características podemos transformar el dato el enriquecerlo, podemos contextualizarlo podemos validarlo cuando hablamos del enriquecimiento os pongo un ejemplo un sensor que al final suele emitir normalmente una serie temporal una fecha, un valor un estado y un nombre de un tag pues al final hay metadatos sobre ese sensor que nos están emitiendo en tiempo real pero que son muy importantes de cara al consumo y al tratamiento y a la obtención de valor de sus propios datos lo que nosotros proponemos y lo que hace CPH es poder enriquecer los datos que nos vienen en tiempo real con otros metadatos y esto es el concepto del enriquecimiento por supuesto una vez hemos persistido todo el dato refinado pues ya lo que tenemos es una capa de acceso rápido para poder consumir el dato en tiempo real podemos consumir sensores y telemetrías o los datos que estáis viendo abajo eventos de negocio etc y por encima lo que exponemos es una capa de apis para que los datos puedan ser consumidos pueden ser consumidos bajo distintos puntos de vista o distintas herramientas lo que hablamos aquí el CPH Toolkit pues ese portal de desarrolladores donde exponemos las distintas apis que tenemos para que sean utilizadas y consumidas una herramienta de utilización custom para monitorear los datos que nos entren en tiempo real herramientas de advance analytics esos conectores que os comentaba como el conector o la extensión que hemos desarrollado para RapidMiner o un Jupyter Notebooks luego tenemos la parte de dashboard y reporting donde podemos construir de una manera rápida y sencilla nuevos cuadros de mando, nuevos informes podemos empezar a consumir el dato de una manera visual y esos data labs que os decía antes por ejemplo consumir los datos bajo un lenguaje SQL pues a día de hoy quien no demanda la necesidad de poder utilizar sentencias SQL y aquí lo que tenemos es la arquitectura de alto nivel me gustaría enseñar que tenemos configurados en la nube la arquitectura de alto nivel del canal de tiempo real de cph donde lo que vamos a hacer es una lectura rápida izquierda a derecha, no me quiero entretener mucho ni marearos pero si consideraba que podría ser interesante que entendáis las piezas de las que está compuesta el canal de tiempo real de los muchos canales que tenemos que tenemos varios canales por un lado los datos que pueden hacer de instalaciones industriales podemos conectarlos bajo dos tipos de protocolos directamente bajo protocolos MQTT o lo que podemos es ponernos a la escucha de un servidor o pc y poder rescatar los datos para subirlos a la nube de amazon conectando y pasando los datos en el primer punto de la ingesta por iotecor a partir de que los datos entran en iotecor ocurren dos cosas, el camino se bifurca por un lado, lo que vamos a hacer es el dato en crudo lo vamos a llevar a nuestro data lake en ese tres dato en crudo por eso os mencionaba en la slide anterior el raw data y esos datos los persistiremos bajo un canal de kinesis que tenemos y la parte arriba la parte de tiempo real de procesos de manera efímera y lo que vamos a hacer es mover el dato enriquecerlo, transformarlo mediante DAX que es una característica de dinamo para poder hacer enriquecimientos en tiempo real de una manera muy rápida y fugaz una vez hemos hecho ese tratamiento hemos hecho ese TL vamos a pasar los datos por Kafka y los persistiremos directamente en apache drip que es nuestro sistema de almacenamiento caliente para consumir los datos con alta concurrencia y baja la atención y posteriormente pues bueno los datos podrán ser consumidos bajo apis, bajo herramientas dbi bajo nuestros laboratorios SQL tenemos dos tipos de consumo el primer consumo sería una capa de datos hot que es apache drip para esos consumos más exigentes y otro tipo de consumo es la capa cold que llamamos que sería el acceso a la Tarek para poder consumir esos datos desde Acina para poder a lo mejor consumir un elevado volumen de histórico por ejemplo en una compañía utilizaríamos esta parte entonces sin más me gustaría dar paso a lo que es la presentación hacer una pequeña demo del producto voy a ver como voy de tiempo me quedan unos 10 minutos ¿no Nicolás? exacto Alberto te quedan 10 minutos venga voy estamos en CPH esta es la consola central donde bueno lo que vamos a ver en primera instancia es el estado de las ingestas que hay corriendo en el sistema tenemos 4 tipos de ingestas ingestas en tiempo real donde lo que hacemos es consumir y transferir los datos con tiempos inferiores a un segundo Nea real time donde la exigencia es inferior y también optimizamos costes ingesta batch a lo mejor información que se genera una vez al día una vez a la hora pues pasaría por este canal y el canal de metadatos precisamente para hacer esos enriquecimientos que os decía entonces sin más dilación pues podemos pasar a crear una ingesta ¿no? a golpe de clic lo primero que nos va a parecer es qué tipo de ingesta quieres seleccionar al Nea, batch o metadata vamos a ir directamente a una ingesta de tiempo real y vamos a crear una ingesta lo primero que nos pide es un nombre de ingesta una serie de roles para que luego la ingesta pueda ser consumida el segundo punto que nos van a preguntar es qué tipo de diccionario quieres configurar en tu ingesta el diccionario al final va a ser el contenedor destino que yo voy a construir para los datos la tabla final que va a ser utilizada para almacenar los datos ¿no? eso es un diccionario es algo lógico que se crea entonces pues por ejemplo voy a enseñaros un diccionario de nuestro entorno de manufacturing pasamos a la contextualización en este punto lo que podemos es contextualizar nuestros datos imaginemos que nosotros si hubiéramos abajo un colector de datos donde vinieran datos que no están plenamente identificados pues podríamos configurarlos para decir bueno pues este tipo de datos me viene de este site o me viene de este punto este otro dato me viene de este otro site que lo tengo descentralizado y lo tengo pues en lugar de tenerlo en Canadá lo tengo en China podemos contextualizar la incesta en el siguiente punto vamos a pasar a definir ¿no? qué datos qué tipo de publicación nos va a venir desde abajo el origen nos va a publicar nos va a hacer una publicación de datos de los eventos que nos entrarán en streaming una publicación por segundo y lo que nos está pidiendo la plataforma es qué tipo de qué tipo de evento nos va a entrar pues en este caso nos entra un evento JSON lo que vamos a subir es un ejemplo de ese evento JSON y el siguiente punto es el mapeo ¿no? el mapeo es importante porque en el mapeo lo que vamos a hacer es mapear la información que me viene en el evento de streaming con la información que me viene que he definido en el diccionario ¿no? pues en este punto pues podría definir y podría decir oye pues el campo de ese evento es un valor aquí tenemos el nombre del tag aquí tenemos la fecha de emisión y un estado y ha hecho un primer mapeo y el siguiente punto sería como veis este diccionario pues la serie temporal está compuesta no sólo de los datos que me vienen en el evento sino de de otros datos que son los metadatos que os comentaba antes lo que vamos a hacer es enriquecer estos datos ¿no? adicionalmente la serie temporal que me viene en streaming voy a hacer un enriquecimiento por ejemplo añadiendole la descripción y añadiendole su unidad de medida, su valor de emisión máximo y su valor de emisión mínimo en este momento tengo todo preparado para crear una ingesta lo que va a hacer CPH es de manera efímera montar la infraestructura clau necesaria para esta ingesta la ingesta se pondrá a crear como estáis viendo pues es un proceso que empieza a correr ahora y tardará unos 10-15 minutos en provisionar de manera efímera la infraestructura necesaria para esta imaginemos que la ingesta ya la hemos creado vamos a ver ahora lo que vamos a hacer es consumir la información de sensores que yo tengo en tiempo real está cargando la página imaginemos que tuviéramos ya una ingesta corriendo nosotros ahora mismo tenemos señales por ejemplo de nuestro centro de investigación pues imaginemos que esa ingesta ya ha terminado y ahora lo que vamos a hacer es proceder a consumir los datos hablaba antes de un tipo de visualización custom donde lo que podemos hacer es consumir de manera de manera en tiempo real entonces lo que vamos a hacer es consumir los datos de esa ingesta de ese pipeline que está corriendo en este momento selecciono la entidad voy a seleccionar los valores que yo necesito para consumir estos datos métricas quiero visualizar dentro de esta graficación lo que vamos a hacer es visualizar una serie temporal vamos a bajar una frecuencia de refresco de un segundo a ver un segundo que ha pasado aquí y vamos a hacer un refresco de los datos de los últimos 5 minutos que se están ingestando en tiempo real vamos a proceder a visualizar y en este momento como puedes ver pues estamos consumiendo en tiempo real los datos que están siendo ingestados desde nuestro centro de investigación actualmente en esta entidad tenemos unos 10.000 millones de eventos pues de una manera bastante sencilla podríamos consumir estos datos no sólo desde el ámbito de tiempo real en modo si quisiéramos consumir los últimos 5 minutos pues por ejemplo, consumir los datos de la última semana vamos a hacer un filtrado vamos a sacar la media 15 minutos desde el día 1 de noviembre hasta el 16 de noviembre y vamos a visualizar esta serie temporal y aquí podéis ver que tenemos la serie temporal y bueno al final el consumo lo que estamos haciendo es por debajo para poder consumir estos datos otro punto que tenemos aquí es el portal de apis que tenemos en cph como os decía los desarrolladores van a poder realizar el consumo de las apis que dispone cph y en este portal tenemos dos tipos de apis las apis de digestas y las apis de consumo en el portal aparece la documentación de las apis los distintos métodos, las suscripciones bueno pues por ejemplo podríamos probar el método select para consumir los datos y apis, ejemplo voy a coger esta petición ejecutarla y en este momento estoy viendo que la apis pues nos está devolviendo los datos desde este punto como os decía también cph dispone de herramientas, de un plugin para poder trabajar con herramientas ofimáticas como es microsoft excel y lo que vamos a hacer en este caso es instalar rápidamente el plugin de cph para poder hacer consumo de los datos desde una din de excel voy a buscar el plugin si voy a compartir ahora esta parte que me están diciendo que no se ve por pantalla se ve excel se ve Nicolás de fondo? se ve bastante borroso Alberto ah se ve bastante borroso si y además estaba a punto de intervenir para avisarte que ya nos hemos pasado se nos pilla el toro no se si podrías resumir rápidamente en un minuto o menos donde estamos porque si, por supuesto por supuesto no hay problema no hay problema pues nada simplemente os quería comentar las distintas herramientas o posibilidades que tenemos para acceder y consumir a los datos cph tiene bastante servicio y es bastante extenso pronto desarrollaremos webinars para hablar largo y tendido de estas características así que nada está atentos espero que os haya gustado la ponencia en la página tenéis mis datos de contacto y ya sabéis estoy disponible para cualquier cosa que podáis necesitar perfecto Alberto, muchas gracias Nicolás nada tía, ha sido una presentación súper completa, nos has dado una visión muy detallada de cph algunas preguntas que nos han entrado quizás podías detallar posibles usos en el futuro donde ves más oportunidad para aprovechar esto pues nosotros en la parte de IA si vemos potencial para poder por ejemplo a partir de cph establecer motores de detección de anomalías por ejemplo queremos que es algo muy interesante y es una de las características que tenemos en roadmap, construir por ejemplo sdk que ayuden a científicos o a gente del mundo de la algoritmia a desarrollar todos estos componentes de inteligencia artificial es algo que tenemos en mente más allá también de ofrecer los datos para los analizados de negocio para ofrecer mejoras y detectar posibles problemas a partir de los datos Preguntan también cuánto tiempo tardasteis en crear cph es una gran pregunta nosotros tardamos 9 meses con un equipo 9 personas, estamos en la 1.0 actualmente el producto lo tenemos corriendo en nuestra compañía y esperamos continuar trabajando en el desarrollo del producto con nuevas versiones incorporando entre otras cosas pues este punto que había dicho la anterior cuestión es justo lo que iba a preguntar cómo lo ves evolucionando en los siguientes años pues a ver nosotros tenemos un roma muy extenso actualmente estamos hablando de unas 60 65 características y le vemos muchas posibilidades del producto nosotros de hecho nos está ayudando mucho en el momento de acelerar la integración de la información y creemos que no sólo nos puede ayudar a nosotros sino que otras compañías también pueden beneficiarse de este producto fenomenal alberto bueno se nos agota el tiempo mil gracias una vez más alberto garcía big day turn analytics expert at cempsa fantástico vamos a tomar otra 5 minutos y luego vamos a estar de vuelta para nuestro final speaker aquí en el garage así que no vayas