Acercándose cada vez más a un sistema de archivos basado en ADN

Acercándose cada vez más a un sistema de archivos basado en ADN AgrandarWyss Instituto, Harvard

Cuando se trata de almacenamiento de datos, los esfuerzos para obtener acceso más rápido se apoderan de La mayor parte de la atención. Pero el archivado de datos a largo plazo es igualmente importante, y generalmente requiere un conjunto completamente diferente de propiedades. Para tener una idea de por qué es importante hacerlo bien, simplemente tome el satélite de la NASA recientemente revivido como un ejemplo: extraer cualquier cosa de los datos del satélite dependerá de el hecho de que una misión separada de la NASA tenía una unidad de cinta anticuada eso podría leer el software de comunicación del satélite.

Otras lecturas

La NASA confirma: su satélite no muerto está operativo

Una de las tecnologías más inesperadas para recibir algunos La atención como medio de almacenamiento de archivos es el ADN. Mientras es increíblemente lento para almacenar y recuperar datos del ADN, sabemos que la información se puede extraer del ADN que es decenas de miles de años. Y ha habido algunas demostraciones impresionantes de el enfoque, como un sistema operativo que se almacena en el ADN en un densidad de 215 petabytes por gramo.

Pero ese método trató el ADN como una masa de pedazos desorganizados: usted tuvo que secuenciarlo todo para obtener cualquiera de los datos. Ahora, un equipo de investigadores ha descubierto cómo agregar algo como un sistema de archivos para el almacenamiento de ADN, lo que permite el acceso aleatorio a datos específicos dentro de una gran colección de ADN. Al hacer esto, el equipo también probó un método recientemente desarrollado para secuenciar ADN que puede ser hecho usando un dispositivo USB compacto.

Aleatorización

El ADN contiene datos como una combinación de cuatro bases, por lo que almacena datos requiere una forma de traducir bits a este sistema. Una vez un poco de información se traduce, se corta en pedazos más pequeños (generalmente de 100 a 150 bases de largo) y se inserta entre los extremos que facilita la copia y secuencia. Estos extremos también contienen algunos información donde residen los datos en el almacenamiento general esquema, es decir, estos son los bytes 197 a 300.

Para restaurar los datos, todo el ADN tiene que ser secuenciado, el información de ubicación leída, y la secuencia de ADN decodificada. De hecho, el ADN necesita ser secuenciado varias veces, ya que hay errores y un grado de aleatoriedad involucrado en la frecuencia con la que fragmento terminará siendo secuenciado.

Agregar acceso aleatorio a los datos reduciría significativamente cantidad de secuencia que debería hacerse. Más bien que secuenciando un archivo completo solo para obtener un archivo, el la secuencia podría ser mucho más específica. Y, como resultado, un colaboración entre Microsoft Research y la Universidad de Washington encontró una forma relativamente simple de hacer esto.

Observe arriba donde los datos están empaquetados entre ADN flanqueante corto secuencias, lo que facilita la copia y secuencia. Existen muchas secuencias potenciales que pueden ajustarse a la factura en términos de facilitando el trabajo del ADN. Los investigadores identificaron miles de ellos Cada uno de estos se puede usar para etiquetar la intervención datos como pertenecientes a un archivo específico, lo que permite su amplificación y secuenciado por separado, incluso si está presente en una mezcla grande de ADN de diferentes archivos. Si desea almacenar más archivos, usted solo tiene que mantener diferentes grupos de ADN, cada uno con varios mil archivos (o múltiples terabytes). Manteniendo estas piscinas físicamente separado requiere aproximadamente un milímetro cuadrado de espacio.

(Es posible tener muchas más de estas etiquetas de secuenciación de ADN, pero los autores seleccionaron solo aquellos que deberían producir Resultados de amplificación consistentes.)

El equipo también encontró una solución inteligente para uno de los problemas de almacenamiento de ADN. Muchos archivos digitales tendrán mucho tiempo tramos de los mismos bits (piense en un cielo azul o unos segundos de silencio en una pista de música). Desafortunadamente, la secuenciación del ADN tiende a ahogarse cuando se enfrenta a una larga serie de bases idénticas, ya sea produciendo errores o simplemente deteniéndose. Para evitar esto, los investigadores creó una secuencia aleatoria y la usó para hacer un cambio de bit operación (XOR) con la secuencia que se codifica. Esto se rompería a largo plazo de bases idénticas y presenta un riesgo mínimo de creando nuevos.

Lecturas largas

La otra noticia en esta publicación es el uso de un relativamente nueva tecnología de secuenciación de ADN que implica relleno hebras de ADN a través de un pequeño poro y leyendo cada base a medida que atravesar. La tecnología para esto es lo suficientemente compacta como para que sea disponible en un dispositivo USB del tamaño de una palma. La tecnología había sido bastante propenso a errores, pero ha mejorado lo suficiente como para que fuera recientemente usado para secuenciar un genoma humano completo.

Otras lecturas

Lector de ADN de bolsillo utilizado para escanear toda la secuencia del genoma humano

Si bien la técnica de nanopore tiene problemas con los errores, tiene la ventaja de trabajar con tramos de ADN mucho más largos. Entonces el los autores reorganizaron sus datos almacenados para que se encuentren en menos y más tiempo Moléculas de ADN y le dio una prueba al hardware.

Tenía una tasa de error asombrosamente alta, alrededor del 12 por ciento su medida Esto sugiere que el sistema necesita ser adaptado a trabajar con las muestras de ADN que prepararon los autores. Aún así, el los errores fueron en su mayoría aleatorios, y el equipo pudo identificar y corríjalos secuenciando suficientes moléculas para que, en promedio, cada secuencia de ADN se leyó 36 veces.

Entonces, con algo parecido a un sistema de archivos y un lector compacto, �Nos estamos acercando al punto donde está el almacenamiento basado en el ADN? �práctico? No exactamente. Los autores señalan el tema de capacidad. Nuestra capacidad para sintetizar ADN ha crecido a un ritmo sorprendente. ritmo, pero comenzó de casi nada hace unas décadas, así que es Todavía relativamente pequeño. Suponiendo que un disco basado en ADN podría lee unos KB por segundo, luego los investigadores calculan que solo tomaría unas dos semanas leer cada bit de ADN que podría sintetizar anualmente. Dicho de otra manera, nuestra capacidad de sintetizar ADN tiene un largo camino por recorrer antes de que podamos almacenar prácticamente muchos datos

Nature Biotechnology, 2018. DOI: 10.1038 / nbt.4079 (Acerca de DOIs).

Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: