 Una introducción al análisis de datos SCR Nasec. Antes de profundizar en el contenido de estas diapositivas, te recomendamos que le des un vistazo a ¿Cómo se comparan las muestras? ¿Cómo son capturadas las células? ¿Cuál es la diferencia entre los métodos Bulk, Nasec y SCR Nasec? ¿Por qué es importante clusterizar datos? Entender las dificultades en la secuenciación y en la amplificación del SCR Nasec y cómo superarlas Conocer los tipos de variación en un análisis y cómo controlarlos Comprender qué es la reducción de dimensiones y cómo se puede realizar Familiarizarse con las principales técnicas de clusterización de datos y condousarlas Hola a todos y bienvenidos al taller de análisis SCR Nasec de Galaxy Aquí les enseñaremos algunos de los conceptos básicos del análisis de datos SCR Nasec Vamos a comenzar con las diferencias entre Bulk, Nasec y SCR Nasec data Con el método Bulk, Nasec observamos la expresión promedio de cada gen detectado en cada uno de los tejidos Debido al número de moléculas de ARN que están siendo consideradas La profundidad de la secuenciación y la fuerza del análisis son razonablemente altas La expresión diferencial se mide entonces como la expresión relativa de un gen dado entre un tejido y otro Con el análisis Single Cell, la etapa de medir la expresión promedio de un tejido se aleja Y se dirige específicamente hacia la expresión génica de cada célula en esos tejidos Aquí ya no comparamos tejido contra tejido, sino célula contra célula Cada célula tiene un perfil genético asignado que describe la abundancia relativa de los genes que se le han detectado Muchas células comparten el mismo perfil genético, donde idealmente un perfil genético describe un tipo de célula A veces se necesita comparar conjuntos de datos de células individuales entre tejidos Y se observa que muchas células de los diferentes tejidos comparten el mismo tipo de células Por ejemplo, observen los perfiles genéticos púrpura y verde que están presentes en ambos tejidos Nuevas tecnologías implican nuevos métodos y técnicas para aprovechar las características nuevas que estas traen consigo Los datos Single Cell Nasec requieren diferentes medios de preparación de librerías, secuenciación Control de calidad y análisis Por ejemplo, ¿cómo se capturan y secuencen las células? En el análisis Bokeh Nasec, el proceso incluye tomar una muestra, remover las moléculas no deseadas y secuenciar todo lo demás Para el análisis Single Cell, el proceso es muy similar, excepto que cada muestra es una célula Y por lo tanto, debe ser secuenciado separadamente de las otras células Una vez aisladas, se agregan códigos de barra únicos a cada célula y luego se secuencian El nivel de resolución en Single Cell es al nivel de la célula y que la célula es única Por lo tanto, el concepto de replicado biológico no es exactamente el mismo que en el Bokeh Nasec La separación de las células puede llevarse a cabo de diferentes maneras Un método es el pipeteo manual, donde el laboratorista succiona cada célula usando un tubo largo y fino Pueden hacer esto cientos de veces para aislar cientos de células, pero es propenso a errores y a menudo se aislan varias células juntas Otro método es la citometría de flujo, en el que se reduce el error humano como componente de esta etapa La citometría de flujo hace flotar las células en un baño líquido poco profundo y las hace desplazarse a lo largo de un canal estrecho Lo justo solo para que pase una célula otra vez Las células pueden ser examinadas según sus propiedades, tales como la dispersión de la luz y la designación gracias a la fluorescencia De esta manera las células pueden ser marcadas y separadas Las propiedades de la dispersión óptica pueden ser usadas para confirmar el tamaño y la consistencia de la célula, donde las células más pequeñas que la longitud de la onda de láser producen bajas intensidades y patrones de dispersión más inconsistentes Existen dos principales tipos de dispersión óptica, la frontal o delantera y la lateral La dispersión frontal se alinea con el láser principal y mide el diámetro de las células, que es ideal para distinguirlas por su tamaño Por ejemplo, como se ve en el eje X de la imagen, los monocitos, que son típicamente más grandes que los linfocitos La dispersión lateral es perpendicular al láser principal y mide la granularidad de la célula, ideal para distinguirlas que tienen estructuras internas menos definidas, por ejemplo como los granulositos que se observan en el eje y de la imagen Las células también pueden seleccionarse y caracterizarse por sus marcadores de superficie celular mediante fax Al representar gráficamente diferentes intensidades de marcadores de superficie entre sí, las células pueden separarse, seleccionarse y etiquetarse en función de estas propiedades fluorescentes Una vez aisladas, las células pueden tener un código de barras Los códigos de barras son secuencias únicas que se agregan a cada molécula de ARN No son exclusivos de la molécula, sino exclusivos de la célula, de modo que dos moléculas de ARN serán marcadas con el mismo código de barras de la célula En caso de que existan en la misma célula, las moléculas de ARN de diferentes células tendrán diferentes códigos de barras Una vez que las moléculas de ARN han sido etiquetadas con los códigos de barras de las células, pueden ser amplificadas Ya sea por separado o agropadas, donde los productos amplificados comparten los mismos códigos de barras de células que sus contrapartes originales La PCR amplifica los productos génicos para hacerlos detectables más fácilmente durante la secuenciación Cuando hay una gran cantidad de producto génico para amplificar, como es el caso del bulk rasek, la PCR funciona bastante bien para amplificar todos los productos de una manera razonablemente bien representada Sin embargo, en el caso de los productos single cell, la cantidad a amplificar es muy pequeña y muchas lecturas únicas pueden perderse durante esta fase Mientras que otras pueden estar sobreamplificadas, como se muestra en las transcripciones azul y roja del ejemplo Para protegernos contra este tipo de sesgo de amplificación, podemos agregar un elemento aleatorio al código de barras Estos códigos de barras aleatorios, conocidos como UMI, etiquetan únicamente las transcripciones de modo que es probable que dos transcripciones del mismo gen tengan diferentes códigos de barras aleatorios Consideramos el ejemplo de la izquierda, tenemos dos transcritos rojos y dos transcripciones azules dentro de la celda, que después de la amplificación equivalen a seis transcripciones rojas y tres transcripciones azules Si tuviéramos que comparar la expresión diferencial de los genes contenidos en las transcripciones rojas y azules, con sólo mirar los fragmentos amplificados, llegaríamos a la falsa conclusión de que las transcripciones rojas se expresan dos veces más que las azules Sin embargo, si agrupamos los fragmentos por sus UMI y luego contamos sólo el número de los UMI únicos por transcripción, eliminando la duplicación de los fragmentos que comparten la misma transcripción y UMI Llegamos a dos fragmentos rojas y dos lecturas azules que representan mejor el verdadero número de transcritos Los UMI son relativamente aleatorios, pero no lo son verdaderamente Observe que el UMI rosa aparece dos veces, una en la transcripción azul y otra en la transcripción roja Esto se debe a que a menudo hay más transcripciones que UMI disponibles, que dependen de la cantidad de transcripciones en una célula y de la longitud del código de barras Considere un conjunto de códigos de barras de longitud 5 con una distancia de edición de 1 entre códigos de barras adyacentes y otro conjunto con una distancia de edición de 2 El primero no es robusto contra los errores de secuenciación comunes de un par de bases, pero el segundo solo permite la mitad del número de códigos de barras Esta compensación entre la cantidad de códigos de barras disponibles y la protección contra errores de secuenciación es fundamental en el diseño de códigos de barras de células y UMI En el contexto de la amplificación, las UMI no necesitan ser únicas, solo necesitan ser lo suficientemente aleatorias para deduplicar las transcripciones a fin de dar una estimación más precisa del número de transcripciones dentro de una celda Así que recapitulemos lo que hemos aprendido Primero, cada célula tiene un código de barras celular que a su vez es agregado a cada molécula de ARN en cada célula Luego agregamos los UMI aleatorios a todas las transcripciones, que etiquetan aún más las moléculas Luego se pueden utilizar para deduplicar las transcripciones después de la amplificación Después de la amplificación, debemos realizar algunos controles de calidad Una forma de hacerlo es establecer umbrales en los límites de detección de genes y células Considera un análisis en el que están involucrados solo tres genes, G1, G2 y G3, y cinco células A, B, C, D, E La primera fila de la tabla superior define el tamaño de la biblioteca, que es el número total de ARN mensajeros en todos los genes de cada célula Las filas siguientes son los umbrales de detección de genes Que muestran cuántos genes se detectan en cada célula para genes superiores a las cantidades umbral de 0 a 4 Vemos que incluso un umbral de más de tres transcritos detectados en una célula determinada todavía mantiene tres células en el análisis B, C y en la tabla inferior Se representa lo contrario, con el número total de transcritos en todas las células para cada general Al establecer umbrales de detección, podemos ver cuántas células describe el gen para ese umbral En ambos casos, podemos ver que si establecemos los umbrales demasiado bajos, corremos el riesgo de mantener genes o células de baja calidad Pero si establecemos los umbrales de detectabilidad demasiado altos, corremos el riesgo de perder demasiados Sin embargo, el filtrado puede ser un lujo, ya que muchos conjuntos de datos de single cell, Nasec tiene normalmente una profundidad de secuenciación baja en comparación con bulk Nasec Durante el proceso de normalización, las muestras escalan entre sí para hacerlas más comparables Esto se realiza normalmente mediante el uso de valores medianos Por ejemplo, para la normalización de sec, se toma el recuento de la media geométrica de una célula, y cada valor de gen en esas células se divide por él y por el valor mediano de todas las medias geométricas de todas las células Si la mediana de la expresión génica es alta, este método de normalización funciona bastante bien Pero si la mediana de la expresión génica es cero, como suele ocurrir con los datos de una sola célula, entonces tenemos el problema de dividir entre cero Existen métodos para sortear estos recuentos de cero Uno de estos métodos es SCRAN, que funciona creando grupos superpuestos de células, de modo que cualquier célula individual se describe por células de tamaños de bibliotecas similares El método implica dividir todas las células en un grupo para impar por el tamaño de su biblioteca, y organizarlas en una estructura de anillo donde las células vecinas en el anillo tienen tamaños similares Se definen grupos superpuestos de tamaño fijo, lo que da como resultado que cada célula sea definida por múltiples grupos Un modelo lineal para esa célula puede entonces ser construido por los grupos en los que se encuentran, y los factores de normalización para todas las células se pueden determinar de esta manera Con este método, el problema de baja cobertura se soluciona convirtiendo las células con tamaños de biblioteca bajos en componentes útiles de un factor de tamaño que se puede aplicar a células similares Estos métodos de normalización novedoso serán algo común hace unos años, pero a medida que las tecnologías de secuenciación han mejorado, el problema de muchos recuentos de cero en la matriz se vuelve menos importante y los factores de tamaño de normalización se pueden derivar utilizando bulk nacec una vez más Otros factores que debemos tener en cuenta durante un análisis de single cell nacec son los factores no deseados que pueden confundir el análisis Lo ideal sería que los perfiles genéticos que separan los diferentes tipos de células estén impulsados por la varianza biológica Sin embargo, existen variables de confusión tanto de fuentes técnicas como biológicas que no son útiles para el análisis pero contribuyen a la varianza La varianza de confusión biológica aparece en dos formas, transcripción en ráfagas y variación del ciclo celular La transcripción en ráfagas es un fenómeno que ocurre en células en las que la transcripción ocurre en estados discretos de activo e inactivo donde el intervalo entre estos estados es difícil de modelar En bulk nacec, este fenómeno es imperceptible ya que los efectos se promedien en muchas células Pero en experimentos de single cell, dos células del mismo tipo pueden exhibir diferentes perfiles genéticos simplemente porque una célula está transcribiendo activamente y la otra no Esto no es algo que podamos controlar en el análisis, pero es algo que debemos tener en cuenta al comprender el ruido en el agrupamiento de células La variación del ciclo celular, por otro lado, es un proceso mucho mejor entendido donde la cantidad de arn en una célula es aproximadamente el doble que la de una célula del mismo tipo debido a que una se encuentra en la fase g1 temprana y la otra en la fase m durante el ciclo celular Hay genes que se sabe que cobarían con el ciclo celular, por lo que al hacer una regresión del efecto de estos genes, podemos controlar el ciclo celular La varianza de confusión técnica aparece en tres formas, sesgo de amplificación, eventos de marginación y variación del tamaño de la biblioteca El sesgo de amplificación puede mitigarse mediante UMI como se demostró anteriormente Los eventos de marginación dan lugar a los ceros predominantes en las matrices de recuento y su efecto se puede reducir utilizando técnicas de normalización inteligentes como el método de agrupación mostrado anteriormente así como utilizando mejores métodos de secuenciación La variación del tamaño de la biblioteca surge por una variedad de razones, pero es la fuente principal de variación dentro de un análisis Al igual que en Bokeh-Rasek, esto se reduce con buenos métodos de normalización Una vez que hemos eliminado los factores de confusión no deseados del análisis, tenemos el problema de cuantificar las relaciones entre las células Desde el punto de vista del análisis de datos, tratamos a cada célula como una observación y a cada gen como una variable Para genomas grandes, esto significa conjuntos de datos de dimensiones extremadamente altas Las células existen como puntos en este espacio de alta dimensión muy escasamente poblado, lo que dificulta ver las agrupaciones naturales El espacio de alta dimensión se puede reducir mucho simplemente filtrando los genes que no parecen expresarse diferencialmente en todas las células Sin embargo, para encontrar las relaciones entre células, necesitamos definir las distancias entre ellas Una matriz de distancias hace exactamente esto, definir la distancia entre dos células cualesquiera mediante un solo valor de puntuación Aquí usamos la distancia euclidiana en un conjunto de datos tridimensional de tres genes, G1, G2 y G3, y tres células, RT y V La distancia entre dos células cualesquiera se puede calcular como la suma de los cuadrados de la diferencia en los valores de los genes Observa cómo la matriz de distancias es simétrica a lo largo de la diagonal, lo que confirma que, por ejemplo, la distancia de las celdas R a V es la distancia de V a R como se espera Una vez que se genera una matriz de distancia, podemos realizar CanEarest Neighbors para generar bordes dirigidos entre células Para cada fila de la matriz de distancia, se seleccionan cada de las células con los valores de distancia más pequeños que representan el vecino más cercano que tiene la célula de la fila actual a las células de la columna seleccionada Si los bordes se comparten mutuamente entre células vecinas, esto se denomina enfoque de vecino más cercano compartido Podemos representar este espacio tridimensional fácilmente como tres ejes independientes con puntos que representen las células Y extrapolar este conjunto de ejemplos de dimensiones relativamente bajas a un conjunto de datos reales de miles de dimensiones que está más allá del alcance de la posibilidad humana La reducción dimensional es un tipo de técnica que toma un conjunto de datos de alta dimensión y produce una representación de baja dimensión, generalmente bidimensional, que intenta preservar las distancias entre los puntos Aquí las diferencias relativas entre células se mantienen tanto en las representaciones de alta y baja dimensión Hay muchos tipos diferentes de técnicas de reducción de dimensiones, cada una con sus propias fortalezas y debilidades que dependen del tipo y la dimensionalidad de los datos Una vez que el número de variables del conjunto de datos se ha reducido lo suficiente mediante el filtrado y la reducción dimensional, la agrupación se puede realizar más fácilmente Aquí, en esta proyección de dos dimensiones, cada círculo es una célula y los colores únicos representan los grupos a los que han sido asignadas Las distancias físicas entre los grupos de células coloreadas nos dicen que tan bueno es el agrupamiento para esta proyección Al inspeccionar los principales genes expresados diferencialmente en cada grupo frente a todos los demás grupos, se pueden encontrar pistas sobre el tipo de célula que describe el grupo Los grupos de células a menudo se caracterizan por la expresión de genes marcadores específicos y la presencia de estos genes son fuertes indicadores del tipo El descubrimiento de genes marcadores se puede utilizar para anotar los grupos También podemos derivar aún más las relaciones entre estos grupos calculando árboles de linaje en función de la cantidad de ruido en cada grupo Con la expectativa de que las células madre tengan perfiles de expresión ruidosos que produzcan grupos más amplios y las células maduras tengan perfiles de expresión muy claros que produzcan grupos más apretados Los tipos de agrupación que es probable que encuentres en un análisis dependen de los conjuntos de datos de entrada, donde es menos probable que las células tomadas de muestras en etapa tardía se agrupen juntas Y es más probable que produzcan grandes lagunas visibles conocidas como agrupamiento duro que claramente definen diferentes tipos Es más probable que los conjuntos de datos de etapas tempranas produzcan grupos más suaves, donde los grupos vecinos comparten límites suaves a medida que estos se entremezclan ligeramente entre sí Es de esperar un agrupamiento suave, ya que aunque el agrupamiento es un método estadístico para dividir datos de manera discreta, la biología celular subyacente de los datos es un proceso continuo Donde las células pasan de un estado bien definido a otro a través de etapas intermedias que se representan en entre dos centros de grupos Debido a la naturaleza continua de estos conjuntos de datos single cell y a su dimensionalidad extremadamente alta, la partición discreta es a menudo un modelo deficiente Asumimos que los grupos de células están relacionados entre sí a través de células de transición que naturalmente se encontrarían entre grupos, entonces las múltiples técnicas de aprendizaje son más adecuadas Estas técnicas derivan un panorama de expresión que no sólo se puede usar para relacionar grupos entre sí, sino que también se puede usar para inferir linaje y jerarquía Para realizar la agrupación tal cual, hay tres métodos de uso común, camins, agrupación jerárquica y agrupación comunitaria camins, camedias y camiriens, camedianas siguen el mismo método El número de grupos se define de entemano y se inicializa en posiciones aleatorias Las posiciones se actualizan luego por la contribución de las células más cercanas a él que a otras posiciones Este proceso ocurre varias veces hasta que las posiciones ya no cambian significativamente o hasta que se alcanza un número determinado de iteraciones La asignación final de cada célula se convierte en la asignación del grupo La agrupación jerárquica es más flexible y no necesita un parámetro inicial para definir el número de grupos resultantes Aquí los dos puntos más cercanos en una matriz de distancia se unen en un solo grupo Las distancias se recalculan y los siguientes dos puntos más cercanos se vuelven a unir Este proceso se repite hasta que todos los datos se han consumido en uno Al rastrear el proceso hacia atrás, se puede establecer una jerarquía que está representada por un dendrograma El agrupamiento de lowbind es un tipo de agrupamiento comunitario ampliamente utilizado para datos de single cell Aquí a cada célula se le asigna un vecindario propio y se cuenta el número de enlaces internos y externos entre vecindarios Para cada iteración se selecciona una célula aleatoria y se coloca dentro de la vecindad de otra célula y los enlaces internos y externos se cuentan una vez más Si la nueva configuración ha reducido el número de enlaces externos a favor de más enlaces internos, entonces se mantiene la configuración Si, en cambio, la nueva configuración ha aumentado el número de enlaces externos, la configuración se rechaza y se selecciona y prueba otra célula Al realizar esto varias veces, se construye una estructura comunitaria de células con el grado de especificidad que desea el usuario El análisis de single cell no es trivial y cada etapa, desde el filtrado hasta la normalización, la reducción de dimensiones y el agrupamiento puede afectar drásticamente el resultado del análisis Debido a la variabilidad en el análisis, uno no debe entrar en pánico ante la incertidumbre El objetivo es jugar con los datos hasta que comiencen a reflejar la biología Esto puede requerir muchos intentos para lograrlo y puede que nunca sea perfecto, pero la idea es probar tantas formas diferentes como sea posible para ver a qué conclusiones sólidas que puede llegar En este sentido, los vastos recursos de UCGalaxy se pueden aprovechar probando diferentes caminos de análisis y Galaxy Training Network ofrece tutoriales y capacitaciones prácticas para ayudarte Explorarlos para desarrollar mejor su comprensión del tema Los datos SCR-NASEC requieren ser preprocesados antes que un análisis sea llevado a cabo Los grupos de células con perfiles similares son comparados contra otros grupos Los problemas de detectabilidad requieren una atención especial en todas las etapas La clusterización es una etapa completa del análisis Gracias por ver este vídeo