Per què hadoop és un partit perfecte per a la seqüenciació del genoma

2026

Taula de continguts:

El present i el futur de la genòmica
Les necessitats de la indústria cartogràfica del genoma

La genòmica clínica és un tema fascinant, on la gent treballa en tecnologies d’avantguarda per processar resultats ràpids i precisos. Hi ha una gran quantitat de seqüenciadors genòmics disponibles al mercat i produeixen petabytes de dades de seqüències i el creixement de la seqüenciació produirà exabytes de dades en un futur proper. Aquí, Hadoop és la plataforma perfecta per processar el flux de treballs genòmics complexos. Hadoop pot emmagatzemar i ordenar quantitats massives d'informació i també pot fer anàlisis significatives. (Per fer-nos una idea de quantes dades comporten realment, llegiu Comprensions de bits, bytes i els seus múltiples).

El present i el futur de la genòmica

Avui, el mapeig del genoma ha assolit el punt àlgid del desenvolupament. Moltes persones associades a la indústria genòmica estan rebentades de curiositat i, a mesura que es presenten noves oportunitats, la tecnologia necessita millor. La seqüenciació del genoma és una tasca molt repetitiva i intensiva en recursos. Només al 2013 es van produir uns 15 petabytes de dades i només 2.000 seqüenciadors. Aquesta quantitat de caiguda de la mandíbula va incloure 300 KB de dades seqüenciades del genoma humà. A aquest ritme de producció de dades, es pot estimar que el 2018 es produirà aproximadament un exabyte de dades. Això es deu al creixement dels seqüenciadors, que produiran cada cop més dades per carrera. Un altre motiu és l’arribada de màquines de seqüenciació de genomes extremadament potents i de baix cost. Des del 2008, el preu d’aquestes màquines ha baixat constantment. Això es deu a les potents màquines de nova generació que han sortit al mercat.

Les necessitats de la indústria cartogràfica del genoma

S'utilitzen algoritmes complexos per processar les dades que es recullen del genoma humà. Aleshores, s’ha d’emmagatzemar aquesta informació. Es pot revisar en el futur per a comparar-lo amb les dades originals. La tasca de processar i emmagatzemar 100 GB de dades no és massa difícil, sobretot quan ho feu amb les potents màquines emprades als centres de seqüenciació. Els estudis demostren que aquesta quantitat de dades es poden processar en aproximadament 1.000 hores de CPU, per la qual cosa és molt fàcil. A aquest ritme d'avançament tècnic, és evident que la indústria del genoma processarà aviat milers de gigabytes en pocs segons.