Inicio Acerca de Blog Tienda FAQ Contacto Iniciar sesión
Long-read transcriptomics of a diverse human cohort reveals ancestry bias in gene annotation
Publicaciones científicas

Long-read transcriptomics of a diverse human cohort reveals ancestry bias in gene annotation


Introducción

La interpretación funcional de variantes genéticas y la caracterización de mecanismos de enfermedad dependen de manera crítica de la calidad de las anotaciones génicas, entendida como la identificación y descripción estructural y funcional de genes y transcritos en el genoma. En humanos, estas anotaciones se construyen principalmente a partir de evidencia transcriptómica y sirven como referencia para cuantificar expresión, definir isoformas y localizar regiones codificantes y no codificantes. Sin embargo, las anotaciones actuales se derivan de forma mayoritaria de datos procedentes de individuos con ascendencia europea, lo que introduce un potencial sesgo sistemático al extrapolar la estructura transcriptómica a poblaciones genéticamente diversas. En este contexto, el equipo liderado por la Dra. Marta Melé del Departamento de ciencias de la vida del Barcelona Supercomputing Center (BSC-CNS) y el Dr. Roderic Guigó, del Centro de Regulación Genómica (CRG) del instituto de Ciencia y Tecnología de Barcelona, abordan este problema mediante transcriptómica de lectura larga, con el objetivo de generar una anotación cross-ancestry y evaluar de forma directa cómo la diversidad poblacional afecta al descubrimiento de transcritos, a la caracterización de isoformas y a la interpretación de señales alélicas.

Para ello, los autores aplican secuenciación de ARN de lectura larga (Oxford Nanopore) con enriquecimiento CapTrap, con el fin de capturar lecturas de longitud completa y reconstruir modelos de transcritos a alta resolución. El trabajo se centra en líneas linfoblastoides humanas, un sistema ampliamente utilizado para estudios de regulación génica, y combina los modelos obtenidos con información genómica y de faseado para evaluar el efecto de usar genomas personales frente a una referencia única (GRCh38). Este diseño permite cuantificar el alcance del sesgo de ascendencia en la anotación y proponer un marco metodológico para avanzar hacia un pantranscriptoma humano.

Resumen de la ascendencia genética de las muestras utilizadas en este estudio y visión general del protocolo experimental de CapTrap y secuenciación de ARN de lectura larga (lrRNA-seq) mediante Oxford Nanopore.

Resultados

Los autores generan más de 800 millones de lecturas de longitud completa mediante long-read RNA-seq en 43 muestras de líneas linfoblastoides (LCL) procedentes de ocho poblaciones genéticamente diversas. A partir de estos datos, construyen una anotación cross-ancestry denominada PODER (POpulation Diversity-Enhanced long-Read). El pipeline inicial (procedimiento de análisis inicial) produce 380,519 modelos de transcritos y, tras un filtrado estricto que elimina aproximadamente el 59% de los modelos, se obtiene un conjunto final de 155,875 transcritos.

La comparación con anotaciones de referencia muestra que el 73.5% de los transcritos PODER ya se encuentra en GENCODE, mientras que 41,297 transcritos son nuevos con respecto a GENCODE. Dentro de este conjunto novel, 731 transcritos se localizan en regiones previamente intergénicas y se agrupan en 476 genes intergénicos nuevos propuestos por los autores. En el caso de genes codificantes, el trabajo evalúa el impacto potencial a nivel proteico y reporta que el 41% de los transcritos nuevos de genes codificantes se asocia a secuencias aminoacídicas novedosas, no reducibles únicamente a elongaciones o truncamientos.

El estudio también cuantifica transcritos población-específicos con una definición operativa explícita (detectados en al menos dos muestras de una población y ausentes del resto). Con este criterio, identifica 2,419 transcritos población-específicos. Un análisis comparativo indica que, en poblaciones europeas, estos transcritos se enriquecen en transcritos ya anotados, mientras que en poblaciones no europeas se enriquecen en transcritos nuevos con respecto a la anotación de referencia, apoyando la existencia de un sesgo de ascendencia en el contenido anotado.

Para evaluar el efecto de la referencia genómica en el descubrimiento transcriptómico, los autores incorporan SNPs faseados en GRCh38 para generar haplotipos personalizados y comparan el mapeo y ensamblado de transcritos frente al uso de la referencia estándar. En la unión de haplotipos personalizados, el descubrimiento aumenta con una mediana de 361 transcritos adicionales por muestra (0.83%) y 607 transcritos nuevos adicionales por muestra (3.6%) respecto a GRCh38. Este resultado apoya que el uso de genomas personales incrementa la recuperación de transcritos y, en particular, de transcritos no anotados previamente.

En paralelo, el trabajo analiza ensamblados genómicos personales y caracteriza regiones no presentes en la referencia. Se reporta una mediana de 156 Mb de secuencia no-referencia por ensamblado, aproximadamente un 4.7% del tamaño de GRCh38. Los autores indican que estas regiones muestran baja densidad génica y transcripcional, consistente con una contribución limitada a la transcripción detectada en este sistema celular, aunque con implicaciones metodológicas para la completitud de la referencia genómica y su uso en transcriptómica.

Conclusiones y discusión

El estudio demuestra que la anotación génica humana presenta un sesgo de ascendencia medible y que la diversidad poblacional contribuye de forma sustancial al descubrimiento de transcritos e isoformas no capturados por anotaciones derivadas predominantemente de individuos europeos. La construcción de PODER proporciona un recurso cross-ancestry que incrementa el repertorio de transcritos con respecto a GENCODE y revela un subconjunto significativo de transcritos y genes intergénicos previamente no anotados en el contexto de LCL. La observación de enriquecimiento de transcritos nuevos en poblaciones no europeas refuerza la necesidad de integrar diversidad en los esfuerzos de anotación.

Además, el trabajo muestra que la elección de la referencia genómica no es un detalle técnico menor: el uso de genomas personalizados aumenta el descubrimiento de transcritos y particularmente de transcritos nuevos, lo que tiene consecuencias directas para análisis posteriores dependientes de anotación, como la cuantificación de isoformas y la interpretación de variación genética en regiones transcritas. En conjunto, los resultados apoyan una estrategia combinada de transcriptómica de lectura larga y diversidad poblacional para avanzar hacia un “human pantranscriptome”, con impacto potencial en la interpretación funcional de variantes y en la generalización de estudios de biología molecular humana.

Referencia

Clavell-Revelles, P., Reese, F., Carbonell-Sala, S., Degalez, F., Arnan, C., Oliveros, W., Palumbo, E., Perteghella, T., Guigó, R., & Melé, M. (2025). Long-read transcriptomics of a diverse human cohort reveals ancestry bias in gene annotation. Nature Communications. 16:10194. https://doi.org/10.1038/s41467-025-66096-x