Toma "huellas dactilares" de párrafos en lugar de leer todo el libro, identifica combinaciones únicas de palabras ["min-meros"] en cada párrafo y les asigna un número [un "hash"]. Busca huellas similares en dos párrafos de libros diferentes y si tienen muchas "huellas dactilares" [números hash] en común, es muy probable que sean el mismo párrafo, incluso si algunas palabras están mal escritas y te da un informe que dice: "El párrafo de la página 120 del Libro A se solapa con el párrafo de la página 245 del Libro B". Con "libros" se refiere a fragmentos de ADN secuenciados que constan de miles a millones de letras y que pueden tener entre un 5-15% de error (palabras mal escritas, letras cambiadas...)
$ mhap -s lecturas.fasta -q lecturas.fasta --num-threads 8 > solapamientos.mhap
En el archivo solapamientos.mhap, cada línea representa un solapamiento detectado. Por ejemplo:
lectura_123 0 10500 15000 + lectura_456 500 11000 10500 - 0.95
Una explicación simplificada de esta salida sería:
lectura_123 y lectura_456se solapan. En lectura_123, el solapamiento va desde la posición 10.500 a la 15.000. En lectura_456, el solapamiento va desde la posición 500 a la 11.000. "+" y "-" indican la orientación, es decir si están en la misma hebra o en la complementaria y 0.95 es la similitud estimada [95%].