Az adattárolás új dimenziója: a DNS

Gondolkoztál már azon, hogy vajon a Google, a Microsoft, vagy a Facebook hol tárolja az adatait? Ez egy igen fontos kérdés, hiszen olyan adatmennyiségről van szó, ami nemigen tudna elférni egy hétköznapi számítógépen. Csak a YouTube-ra – mely a Google-csoporthoz tartozik – 500 órányi videó töltődik fel percenként. Ez azt jelenti, hogy egy óra alatt annyi tartalom kerül fel, amit 5 év lenne végig nézni. A Facebooknál ez óránként nagyjából 210 terrabájt adatot jelent. Hogyan kezelik, hogyan tárolják? Hol?

Nos, a válasz egyszerű, de a kivitelezés korántsem az. Egyrészt nem egy helyen, a világ számos pontján vannak pl. a Google-nek szerverlétesítményei. Valódi, fizikai meghajtókon tárolódnak az adatok, melyeket folyamatosan karban kell tartaniuk, és ami az egyik legnehezebb, a szervereket, a létesítményeket hűteniük kell. Mivel az adatok folyamatosan gyűlnek és gyűlnek, nem tehetik meg, hogy csak úgy kitörölnek dolgokat (az internet nem felejt- szokták mondani). Ezért újabb és újabb fizikai meghajtókra, szerverekre, szerverlétesítményekre lesz szükség.

Hacsak…

Mielőtt továbbmennénk, beszéljünk arról, mi is az az adat. Hogyan definiálható? Azért fontos ez a kérdés, mert nem csak a számítástechnikában beszélhetünk adatról, hanem a biológiában is. A vérünkben, a gén is adatnak minősül. Azok mind adatok, hogyan épülünk fel, hogyan nézünk ki. Ezeket a génjeink határozzák meg. A testünk felépítéséért pedig a DNS felel.

De mi is konkrétan az a DNS és hogyan működik?

A DNS, teljes nevén dezoxiribonukleinsav egy molekula, melyet úgy is szoktak nevezni, hogy az élő szervezetek tervrajza. Ahhoz, hogy megértsük hogyan működik, érdemes pár szót ejteni az aminosavakról. Az aminosavak szerves vegyületek, melyeknek fehérjeépítő funkciójuk van. Összesen 22 féle fehérjeépítő aminosav létezik. Mindegyik, saját, egyedi formával rendelkezik. Ebből az következik, hogy millió féle variációban képesek fehérjékké összeállni.

Az aminosavak alkotják a fehérjéket, a fehérjék a sejteket, a sejtek a szöveteket, a szövetek a szerveket, azok, pedig az élőlényeket. Mint az állatok, a növények, az emberek.

A fehérjék megformázása kulcsfontosságú ahhoz, hogy jól működjenek. Itt jön képbe a DNS. Számtalan dolgot csinál a DNS, egyes dolgait még ma sem értik teljesen a kutatók. A legfontosabb szerepe viszont az, hogy utasíja az aminosavakat, hogy a megfelelő módon álljanak össze adott fehérjemolekulává. A DNS ezt négy bázis segítéségével teszi a sejtek sejtmagjából. Ezek a bázisok az adenin (A), a guanin (G), a citozin (C) és a timin (T). Nem mennék bele most, hogy egészen pontosan ez hogyan működik. ha érdekel csatolom a Hogyan működik YouTube-csatorna magyarázó videóját:

DNS a számítástechnikában

Tehát a DNS információt tárol. De mégis mennyit és mi köze van ennek a számítástechnikához? Dina Zielinski Yorki Genomközpont és a Columbia Egyetem kutatója Bécsben tartott előadást néhány éve arról, hogy mi lehet az adattárolás okozta problémákra a megoldás.

„A sok adat nagy gonddá vált. A digitális tárolás igen drága, és egyik ilyen eszközünk sem állta ki az idő próbáját.”

– mondja előadásában Dina.

„Van egy illúzió, hogy megoldottuk a tárolás problémáját, de ez csupán a látszat. Nem aggódunk íméljeink és fotóink miatt, ott vannak a felhőben”

– hangoztatja utalva arra, hogy a felhőben való adattárolás is ugyanolyan merevlemezeken történik, mint az otthoni meghajtóink.

„Akárhogy is, a felhő csak egy rakás merevlemez.”

Dina előadásában elmondta, hogy a DNS a legősibb adattároló, évmilliók óta hordozza azokat az adatokat, melyhez az életben maradáshoz szükségünk van.

De mégis mennyi adatot tárol?

„Ha kinyomtatnánk mind a hárommilliárd A-t, T-t, C-t és G-t egy szokásos betűtípussal egy általános formában, majd egymásra raknánk a lapokat, a halom magassága kb. 130 méter lenne, valahol a Szabadságszobor és a Washingtoni Emlékmű között. Ha mindezeket digitális formában, nullákban és egyesekben tárolnánk, néhány giga volna. És ezt minden sejtünk tartalmazza. Több mint 30 billió sejtünk van.”

Míg egy 1 terrabájtos merevlemez súlya nagyjából 150 gramm, addig 215 ezerszer ennyi adatot lehet eltárolni egyetlen gramm DNS-ben. Ez azt jelenti, hogy az az egész internet, beleértve a Facebook, a Google összes adatát, elférne egy okostelefon méretű eszközön.

Tehát hatalmas mennyiségű adatról van szó, ha az élő szervezeteket figyeljük. És ezt tudjuk alkalmazni a számítástechnikai adataink esetében is?

Az első film, az első DNS- tárolón

Yaniv Erlich és Dina Zielinski, (aki fentebb említett előadást is tartotta) a világ legelső, 1896-ban készült „A vonat érkezése” című filmet, illetve ezen kívül egy operációs rendszert, egy képet, egy tanulmányt, egy számítógépes vírust és egy Amazon-ajándékkupont kódoltak DNS-adattárolóra 2017-ben.

Azonban nem ők voltak az elsők.

Az első jól működő DNS-alapú adattárolót George Church, a Harvard kutatója alkotta meg 2012-ben. Church és társai a szakértő újonnan kiadott könyvét, néhány képet és egy Javascript-programot kódoltak a nukleotid bázisok révén. A sejteket kiiktatták a képből, és a kémiai úton szintetizált DNS-szakaszokat egyszerűen egy üvegchipre nyomtatták. Az egyesek helyére guanin vagy timin, a nullák helyére pedig adenin vagy citozin került a sorban. Az adatsort darabokra szabdalták és rövidebb fragmentumonként szintetizálták a kódoló szakaszokat. Ezek egyúttal egy-egy „vonalkódot” is kaptak, amely azt jelezte, hogy hol helyezkedtek el a teljes adatsorban. Az információ leolvasásához egy szekvenálóra és egy számítógépre volt szükség, amely sorba rendezte a töredékeket, majd visszafordította eredeti formátumukra a fájlokat.

A Microsoft továbbfejlesztette

2019-ben a Microsoft, a Washingotni Egyetem együttműködésével fejlesztette tovább a DNS alapú adattárolást, amikro is megoldották azt, hogy a digitális információt átkonvertálják a DNS betűivé, majd onnan ki is lehessen olvasni a lementett tartalmakat.

Ez a hadművelet elsőre rendkívül drágának és lassúnak tűnhet, ugyanis első lépésben azt sikerült megoldani a tízezer dolláros géppel, hogy a HELLO szót lefordítsák a DNS nyelvére. vagyis a digitálisan 01001000 01000101 01001100 01001100 01001111 formában tárolt adatot a DNS betűivel (A, C, T és G) rögzítették. Az adatokat egy folyadékban tárolták, és a HELLO körülbelül 4 mikrogrammot nyomott a DNS-t felépítő nukleotidokból.

A sebesség tényleg borzasztóan lassú volt, az 5 bájt rögzítése és kiolvasása összesen 21 órát vett igénybe. De azt mondják, hogy máris kitaláltak egy módszert, amivel a szükséges idő 10-12 órával lerövidíthető.

Valóban gyerekcipőben jár a dolog. Rengeteg idő, pénz és laboratóriumi körülmény szükséges, ahhoz, hogy létrejöhessen az adattárolás. De emlékezzünk vissza, hogy egy pár megabájt kapacitású gép is 30-40 éve akkora volt, mint egy kisebb személyautó. Szóval, ha tendenciát figyeljük egészen biztosan bekövetkezik a megfelelő sebességű, méretű DNS-alapú tároló.