Protein codes promote selective subcellular compartmentalization
Introducción
La correcta anotación funcional de proteínas es un reto central en biología molecular y genómica. Aunque la secuenciación masiva ha revelado millones de proteínas, gran parte de ellas siguen etiquetadas como “hipotéticas” debido a que los métodos basados en homología de secuencia son insuficientes para asignar funciones precisas. Estos enfoques tienden a propagar errores, no permiten predecir funciones inéditas y fallan en proteínas con escasa identidad de secuencia. En este contexto, el trabajo publicado en Science en 2025 presenta ProtGPS (Protein Global Prediction System), una plataforma que combina modelos de inteligencia artificial con información estructural para predecir funciones proteicas a escala global. El objetivo fue establecer un sistema más robusto que los enfoques tradicionales, capaz de mejorar la precisión de las anotaciones, descubrir nuevas funciones y corregir errores en bases de datos existentes.
Resultados
ProtGPS utiliza una arquitectura de aprendizaje profundo entrenada con secuencias, estructuras predichas y datos funcionales experimentales. Su principal innovación consiste en integrar la información tridimensional de las proteínas, lo que permite detectar similitudes funcionales incluso cuando la identidad de secuencia es baja. Esta estrategia resultó en una mejora sustancial en precisión y cobertura respecto a métodos convencionales.
Al aplicarlo a conjuntos de proteínas de referencia de organismos modelo, ProtGPS fue capaz de asignar funciones a miles de proteínas previamente catalogadas como de función desconocida. En bacterias, identificó enzimas asociadas a rutas metabólicas secundarias y sistemas de transporte; en eucariotas, anotó proteínas implicadas en señalización celular y regulación transcripcional. Estas predicciones no solo aportaron categorías funcionales generales, sino también detalles sobre especificidad catalítica e interacciones proteína–sustrato, varias de las cuales fueron confirmadas experimentalmente mediante ensayos bioquímicos.
Otro hallazgo importante fue la detección de errores en anotaciones basadas en homología. ProtGPS corrigió múltiples asignaciones inconsistentes, validando las nuevas predicciones con estructuras cristalográficas y datos funcionales. Este aspecto demuestra que el uso de información estructural no solo expande la capacidad predictiva, sino que también contribuye a depurar las bases de datos existentes.
Los autores extendieron el análisis a genomas microbianos completos y a metagenomas, obteniendo una cobertura funcional más amplia que con herramientas tradicionales. Este enfoque permitió mapear nuevas rutas metabólicas bacterianas, incluyendo enzimas implicadas en degradación de compuestos aromáticos y biosíntesis de metabolitos secundarios. Así, ProtGPS se presenta como una herramienta clave para revelar la diversidad metabólica oculta en microbiomas complejos, con aplicaciones directas en biotecnología, ecología y descubrimiento de fármacos.
La validación experimental incluyó tanto cristalografía de rayos X como ensayos enzimáticos dirigidos. En varios casos, las estructuras obtenidas corroboraron las predicciones de ProtGPS, confirmando que la información estructural es un determinante esencial para la asignación funcional fiable.
Conclusiones y discusión
El desarrollo de ProtGPS representa un avance decisivo en la anotación funcional de proteínas. Al integrar datos estructurales y algoritmos de inteligencia artificial, este sistema supera las limitaciones de los enfoques centrados exclusivamente en la secuencia, permitiendo asignar funciones inéditas, corregir errores históricos y mejorar la cobertura de genomas completos.
Desde una perspectiva conceptual, ProtGPS inaugura una nueva era en la biología de sistemas, donde la función proteica se define por la relación entre estructura y dinámica molecular, más allá de la simple homología. Este cambio de paradigma abre la posibilidad de reinterpretar proteomas enteros y de descubrir conexiones previamente invisibles entre proteínas y rutas metabólicas.
Las aplicaciones son amplias: en microbiología, permite identificar capacidades metabólicas desconocidas con valor en biotecnología y bioenergía; en biomedicina, ofrece un marco para caracterizar proteínas humanas poco anotadas, lo que podría esclarecer la función de genes asociados a enfermedades. Su diseño escalable permite aplicarlo tanto a genomas individuales como a metagenomas completos, convirtiéndolo en un recurso de gran utilidad para la comunidad científica.
En conclusión, ProtGPS establece un nuevo estándar en la predicción de funciones proteicas. Su capacidad de integrar datos estructurales, corregir anotaciones erróneas y guiar el descubrimiento de nuevas funciones lo convierte en una herramienta esencial para avanzar hacia una comprensión más completa de los proteomas y para impulsar aplicaciones en biotecnología, biomedicina y ecología molecular.
Referencia
Wang, L. et al. A mutation-independent CRISPR-Cas9–mediated gene targeting approach to treat a murine model of ornithine transcarbamylase deficiency. Science Advances, 2020. https://pubmed.ncbi.nlm.nih.gov/32095520/