Apache Hadoop acelerará la investigación y análisis del genoma humano

Cloudera colabora con Broad Institute en la nueva generación de herramientas para el análisis del genoma.

Cloudera, proveedor mundial de la plataforma de análisis y gestión de datos construida sobre Apache Hadoop y las últimas tecnologías open source, anuncia la colaboración con el Broad Institute of MIT and Harvard, el principal centro de investigación biomédica y genómica del mundo. Las dos organizaciones están trabajando juntas para avanzar en el desarrollo de la próxima generación de herramientas del Broad para el análisis del genoma, GATK4.

Cloudera Enterprise acelera la investigación en las ciencias de la vida y el descubrimiento de fármacos poniendo datos en tiempo real en manos de médicos, investigadores y proveedores interesados en la personalización de la experiencia del paciente. Construyendo la cuarta generación de GATK (GATK4) sobre Cloudera Enterprise y utilizando el marco de computación distribuida de Spark para impulsar la investigación, Broad Institute está facilitando el mejor entendimiento de la secuencia genómica, con resultados más rápidos de la exploración de datos y, en última instancia, permitiendo mejores decisiones clínicas.

Desde que el Proyecto Genoma Humano produjo el primer borrador de la secuencia del genoma humano en el año 2000, el coste de la secuenciación se ha reducido de manera exponencial, de alrededor de 100 millones de dólares por genoma hasta los 1.000 que cuesta hoy día. Durante el mismo período, también se ha experimentado un crecimiento masivo en las capacidades de almacenamiento y procesamiento de las tecnologías de big data como Hadoop.

“La reducción en el coste de la secuenciación del genoma y el avance en las tecnologías de big data significa que podemos darnos el lujo de secuenciar el genoma de pacientes de forma muy amplia y producir conjuntos de datos que nunca antes habían estado disponibles”, afirma Shawn Dolley, industry leader of life sciences en Cloudera. “Construyendo la próxima generación de herramientas sobre Spark acelera exponencialmente los cálculos de memoria y facilita el paralelismo. Cloudera Enterprise acelera los viajes de ida y vuelta para accesos y calcula los datos para la búsqueda de datos, que se traduce en una reducción significativa en el tiempo de I+D. Esto tendrá un valor científico muy significativo”.

En la actualidad hay más de 31.000 usuarios registrados en GATK. Broad Institute está trabajando con colaboradores para desarrollar opciones de alojamiento en la nube que amplíen el acceso y faciliten el uso de las herramientas de análisis del genoma para obtener información más potente y tomar decisiones. Los usuarios también podrían crear fácilmente mejores prácticas y evitar la duplicación de las infraestructuras.

“Utilizando la plataforma Spark sobre Cloudera Enterprise nos da la capacidad de implementar herramientas que no se podían con GATK3 debido a su complejidad computacional”, aclara Dr. Eric Banks, senior director of Data Sciences and Data Engineering en Broad y creador de GATK software package. “Con Cloudera Enterprise ahora podemos analizar datos genómicos más rápido que en las versiones anteriores de GATK, pues permite un análisis reiterativo más rápido para impulsar la innovación genómica”.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022