Questo libro presenta un metodo di calcolo per rilevare ed eliminare i conti di NGS ridondanti generati dagli assemblatori. L'approccio utilizza due tecniche basate sull'hashish, un filtro Bloom per eliminare i contig doppi e un hash sensibile alla localizzazione (LSH) per rimuovere contig simili. Poiché un gran numero di contig sono generati da assemblatori diversi, questi approcci richiedono notevoli risorse umane e computazionali. La riduzione della ridondanza facilita l'ulteriore analisi dei dati e riduce il tempo necessario per finalizzare e curare gli assemblaggi genomici. L'assemblaggio ibrido del dataset GAGE-B (8 batteri divisi in 12 gruppi sequenziati in Illumina HiSeq e MiSeq) è stato eseguito con l'assemblatore SPAdes (De Bruijn Graph) e l'assemblatore Fermi (OLC). La pipeline è stata applicata ai contigui risultanti e alle prestazioni rispetto ad altri strumenti simili come HS-BLASTN, Simplifier e CD-HIT. L'applicazione proposta può generare risultati complementari e aiuta a unire questi risultati, rendendo l'assemblaggio più preciso.