
La atención de la comunidad científica y la popularidad divulgativa que están obteniendo los estudios sobre la microbiota son el fruto de un largo trabajo de investigación en diferentes áreas que sigue muy activo hoy en día. Las poblaciones microbianas se caracterizan por una alta complejidad y para su estudio es necesario disponer de softwares específicos, hardwares potentes capaces de manejar una enorme cantidad de datos y un coste per-análisis suficientemente contenido para que este tipo de investigaciones sean económicamente viables. Para ello, en las últimas décadas, las técnicas de secuenciación de ADN han evolucionado y mejorado consiguiendo un abaratamiento importante de los gastos. A su vez, la capacidad computacional de los ordenadores ha aumentado lo suficiente para que sea posible utilizar softwares desarrollados ad hoc para poder estudiar el complejo mundo bacteriano.
El punto de partida para el análisis de la microbiota (intestinal y de otras zonas) es la secuenciación del ADN, que determina el orden de las bases nitrogenadas adenina (A), guanina (G), timina (T) y la citosina (C) del gen 16S rRNA. Sucesivamente, los datos de secuenciación brutos se analizan y se tratan con softwares adecuados para determinar las características y la taxonomía de la comunidad. Finalmente, se procede al estudio estadístico específico para inferir los resultados científicos.
La identificación molecular del ADN ha sido el objeto de intensos esfuerzos científicos durante la segunda mitad del siglo XX hasta la publicación del método Sanger, desarrollado por el bioquímico inglés Frederick Sanger (premio Nobel de Química en 1980 por este hallazgo compartido con W. Gilbert) y A.R Coulson. Esta técnica era más eficiente, rápida y precisa que otras anteriores, pero su fama se debe sobre todo a la comercialización en 1986, del primer secuenciador automático del método Sanger, el Applied Biosystems 370ª y al uso de uno de estos secuenciadores, el modelo ABI PRISM 3700, en el Proyecto Genoma Humano (1985-2003). A pesar del éxito y potencial científico, este tipo de análisis estaba todavía al alcance de pocos debido al tiempo y a los costes operativos: se tardó más de una década en secuenciar el genoma humano y costó unos 2.047 millones de euros. La necesidad de abaratar costes y minimizar los tiempos impulsaron el nacimiento de las técnicas de secuenciación masiva (Next Generation Sequencing-NGS) y entre el 1990 y 2005 el gasto de secuenciación por nucleótido pasó de los 10$ a 0,01$ abriendo definitivamente las puertas a los análisis de ADN. La tecnología de secuenciación más utilizada hoy en día es la desarrollada por Illumina debido a que ofrece plataformas (MiniSeq o HiSeq XTen, entre otras) capaces de producir resultados robustos a precios razonables. Estos aparatos son capaces de realizar múltiples secuencias cortas de un modo paralelo, produciendo millones de lecturas al mismo tiempo, abaratando costes y reduciendo el tiempo necesario para obtener resultados.
Actualmente, la mejor diana para los estudios de filogenia y taxonomía bacteriana es la secuenciación del gen 16S. Este codifica para una subunidad ribosomal que se conserva ampliamente entre las bacterias y contiene regiones hipervariables intercaladas entre las regiones conservadas de su secuencia. Estas regiones hipervariables son únicas para cada especie bacteriana, lo que permite su clasificación o taxonomía. Las regiones conservadas, por otro lado, permiten el desarrollo de cebadores universales que se unen a secuencias conocidas compartidas entre la mayoría de las bacterias. La secuenciación de lectura corta de aproximadamente 200-400 pares de bases es capaz de apuntar a una o varias regiones proximales mediante el uso de cebadores específicos que se alinean con las regiones conservadas a ambos lados del objetivo hipervariable.
Una de las principales limitaciones de la secuenciación masiva del gen 16S es la complejidad y la cantidad de datos que se obtienen. Antes de la secuenciación masiva, la mayoría de las investigaciones que estudiaban las comunidades bacterianas eran lentas y caras, pero permitían largas lecturas (superiores a 500 pares de bases), lo cual facilitaba la identificación. Actualmente, el análisis es rápido y económico, pero genera millones de lecturas cortas que requieren un cuidadoso plan de análisis bioinformático.
Desde el año 2008, con el inicio del Proyecto Microbioma Humano (HMP), los científicos se han enfrentado al problema de cómo manejar grandes volúmenes de información: el big data. Poco a poco han ido apareciendo diferentes herramientas informáticas para llevar a cabo los procesos de limpieza, filtrado y asignación taxonómica. En general, no son programas fáciles de usar y requieren de cierta destreza informática. Entre los más utilizados destacan Mothur y QIIME, que en la última década han sido actualizados constantemente para incluir los métodos estadísticos desarrollados específicamente para el estudio de poblaciones microbianas. Desde enero de 2018 el soporte y desarrollo de QIIME han sido suspendidos y un nuevo programa llamado QIIME2 lo ha sustituido. El QIIME 2 se actualiza constantemente para resolver los errores e incluir las últimas novedades para el estudio de la microbiota, como por ejemplo el programa DADA2, que procesa y corrige los datos de secuenciación masiva obtenidos por Illumina. Para los usuarios más expertos, es posible utilizar el programa estadístico R que representa la alternativa más versátil pero más compleja entre estos programas. R es un lenguaje de programación enfocado a la estadística y no es específico como QIIME2 o Mothur, pero es posible utilizarlo para el estudio de la microbiota instalando los componentes necesarios: DADA2, microbiome, ALDEx2, etc.
Independientemente del método de secuenciación, los resultados finales se representan en unidades taxonómicas operativas (OTU), que son secuencias que identifican organismos llegando generalmente a nivel de género o especie. Para la asignación taxonómica de estas OTU se pueden utilizar diferentes técnicas que comparan las OTU con una base de datos (por ejemplo Greengenes o Silva). Por otro lado, la tabla de frecuencia de las OTU se utiliza para la caracterización de las poblaciones, que consiste en calcular los índices de alfa y beta diversidad. Los índices de diversidad y la tabla de frecuencias se emplean a su vez para la comparación de poblaciones e inferir los resultados sobre microbiota.
Una limitación importante de los estudios de secuenciación masiva (segunda generación) es la duración de las lecturas que produce. Brevemente, para preservar la calidad de la lectura, las moléculas largas de ADN deben dividirse en segmentos pequeños. De otra manera, debido a errores aleatorios, la síntesis de ADN entre las cadenas de ADN amplificadas se volvería progresivamente fuera de sincronización. Los esfuerzos computacionales dirigidos a la reconstrucción de los segmentos a menudo se basan en cálculos estadísticos aproximados que pueden no dar como resultado montajes precisos. Para superar estas limitaciones, actualmente, la secuenciación masiva de tercera generación (también conocida como secuenciación de lectura larga) se encuentra en desarrollo activo. Esta tiene como objetivo leer las secuencias de nucleótidos a nivel de una sola molécula sin romper las largas hebras de ADN en pequeños segmentos y luego inferir las secuencias de nucleótidos por amplificación y síntesis. Desafortunadamente, todavía existen desafíos críticos en la ingeniería de los instrumentos para que esté disponible comercialmente.
Independientemente de las limitaciones de las técnicas de secuenciación y de las aproximaciones estadísticas, la microbiota ha demostrado su relación con numerosas enfermedades crónicas como la obesidad, la diabetes e incluso el autismo y la comunidad científica está convencida de poder encontrar en ella, marcadores para la prevención de la salud y nuevos métodos para tratar pacientes. En el futuro los avances tecnológicos permitirán llevar a cabo el análisis de microbiota de un forma fácil y rutinaria como actualmente se analizan la sangre o la orina y disponer así de más información para prevenir enfermedades y/o diseñar tratamientos individualizadas mediante el uso de probióticos específicos o el trasplante fecal.
Carlo Bressa es profesor de Especialidades Médicas en el Doble Grado en Farmacia y Biotecnología