Reference Citation Analysis: Find an Article, Find a Category, Find a Journal, Find a Scholar

For: Dufort Y Álvarez G, Seroussi G, Smircich P, Sotelo J, Ochoa I, Martín Á. ENANO: Encoder for NANOpore FASTQ files. Bioinformatics 2020;36:4506-4507. [PMID: 32470109 DOI: 10.1093/bioinformatics/btaa551] [Citation(s) in RCA: 11] [Impact Index Per Article: 2.2] [Reference Citation Analysis] [What about the content of this article? (0)] [Track Full Text] [Journal Information] [Subscribe] [Scholar Register] [Received: 03/16/2020] [Revised: 05/07/2020] [Accepted: 05/26/2020] [Indexed: 02/01/2023] Open

For:	Dufort Y Álvarez G, Seroussi G, Smircich P, Sotelo J, Ochoa I, Martín Á. ENANO: Encoder for NANOpore FASTQ files. Bioinformatics 2020;36:4506-4507. [PMID: 32470109 DOI: 10.1093/bioinformatics/btaa551] [Citation(s) in RCA: 11] [Impact Index Per Article: 2.2] [Reference Citation Analysis] [What about the content of this article? (0)] [Track Full Text] [Journal Information] [Subscribe] [Scholar Register] [Received: 03/16/2020] [Revised: 05/07/2020] [Accepted: 05/26/2020] [Indexed: 02/01/2023] Open

Number

Cited by Other Article(s)

Sun H, Zheng Y, Xie H, Ma H, Zhong C, Yan M, Liu X, Wang G. PQSDC: a parallel lossless compressor for quality scores data via sequences partition and run-length prediction mapping. Bioinformatics 2024;40:btae323. [PMID: 38759114 PMCID: PMC11139522 DOI: 10.1093/bioinformatics/btae323] [Citation(s) in RCA: 0] [Impact Index Per Article: 0] [Reference Citation Analysis] [Abstract] [MESH Headings] [Grants] [Track Full Text] [Journal Information] [Subscribe] [Scholar Register] [Received: 01/28/2024] [Revised: 04/22/2024] [Accepted: 05/16/2024] [Indexed: 05/19/2024] Open

Abstract

MOTIVATION

The quality scores data (QSD) account for 70% in compressed FastQ files obtained from the short and long reads sequencing technologies. Designing effective compressors for QSD that counterbalance compression ratio, time cost, and memory consumption is essential in scenarios such as large-scale genomics data sharing and long-term data backup. This study presents a novel parallel lossless QSD-dedicated compression algorithm named PQSDC, which fulfills the above requirements well. PQSDC is based on two core components: a parallel sequences-partition model designed to reduce peak memory consumption and time cost during compression and decompression processes, as well as a parallel four-level run-length prediction mapping model to enhance compression ratio. Besides, the PQSDC algorithm is also designed to be highly concurrent using multicore CPU clusters.

RESULTS

We evaluate PQSDC and four state-of-the-art compression algorithms on 27 real-world datasets, including 61.857 billion QSD characters and 632.908 million QSD sequences. (1) For short reads, compared to baselines, the maximum improvement of PQSDC reaches 7.06% in average compression ratio, and 8.01% in weighted average compression ratio. During compression and decompression, the maximum total time savings of PQSDC are 79.96% and 84.56%, respectively; the maximum average memory savings are 68.34% and 77.63%, respectively. (2) For long reads, the maximum improvement of PQSDC reaches 12.51% and 13.42% in average and weighted average compression ratio, respectively. The maximum total time savings during compression and decompression are 53.51% and 72.53%, respectively; the maximum average memory savings are 19.44% and 17.42%, respectively. (3) Furthermore, PQSDC ranks second in compression robustness among the tested algorithms, indicating that it is less affected by the probability distribution of the QSD collections. Overall, our work provides a promising solution for QSD parallel compression, which balances storage cost, time consumption, and memory occupation primely.

AVAILABILITY AND IMPLEMENTATION

The proposed PQSDC compressor can be downloaded from https://github.com/fahaihi/PQSDC.

Collapse

Meng Q, Chandak S, Zhu Y, Weissman T. Reference-free lossless compression of nanopore sequencing reads using an approximate assembly approach. Sci Rep 2023;13:2082. [PMID: 36747011 PMCID: PMC9902536 DOI: 10.1038/s41598-023-29267-8] [Citation(s) in RCA: 0] [Impact Index Per Article: 0] [Reference Citation Analysis] [Abstract] [Key Words] [MESH Headings] [Grants] [Track Full Text] [Figures] [Journal Information] [Subscribe] [Scholar Register] [Received: 10/20/2022] [Accepted: 02/01/2023] [Indexed: 02/08/2023] Open

Chen P, Sun Z, Wang J, Liu X, Bai Y, Chen J, Liu A, Qiao F, Chen Y, Yuan C, Sha J, Zhang J, Xu LQ, Li J. Portable nanopore-sequencing technology: Trends in development and applications. Front Microbiol 2023;14:1043967. [PMID: 36819021 PMCID: PMC9929578 DOI: 10.3389/fmicb.2023.1043967] [Citation(s) in RCA: 8] [Impact Index Per Article: 4.0] [Reference Citation Analysis] [Abstract] [Key Words] [Track Full Text] [Figures] [Journal Information] [Subscribe] [Scholar Register] [Received: 09/14/2022] [Accepted: 01/03/2023] [Indexed: 02/04/2023] Open

Rivara-Espasandín M, Balestrazzi L, Dufort y Álvarez G, Ochoa I, Seroussi G, Smircich P, Sotelo-Silveira J, Martín Á. Nanopore quality score resolution can be reduced with little effect on downstream analysis. BIOINFORMATICS ADVANCES 2022;2:vbac054. [PMID: 36699360 PMCID: PMC9710687 DOI: 10.1093/bioadv/vbac054] [Citation(s) in RCA: 0] [Impact Index Per Article: 0] [Reference Citation Analysis] [Abstract] [Grants] [Track Full Text] [Figures] [Subscribe] [Scholar Register] [Received: 07/12/2022] [Revised: 07/13/2022] [Accepted: 08/08/2022] [Indexed: 01/28/2023]

Affiliation(s)

Martín Rivara-Espasandín Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay Departamento de Genética, Facultad de Medicina, Universidad de la República, 11800 Montevideo, Uruguay Departamento de Genómica, Instituto de Investigaciones Biológicas Clemente Estable, 11600 Montevideo, Uruguay
Lucía Balestrazzi Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay Sección Bioinformática, Unidad de Genómica Evolutiva, Facultad de Ciencias, Universidad de la República, 11400 Montevideo, Uruguay
Guillermo Dufort y Álvarez Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay
Idoia Ochoa Electrical and Electronics Department, Tecnun, University of Navarra, 20018 San Sebastián, Spain Electrical and Computer Engineering, University of Illinois at Urbana-Champaign, Champaign, IL 61801, USA
Gadiel Seroussi Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay Instituto de Ingeniería Eléctrica, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay
Pablo Smircich Departamento de Genómica, Instituto de Investigaciones Biológicas Clemente Estable, 11600 Montevideo, Uruguay Laboratorio de Interacciones Moleculares, Facultad de Ciencias, Universidad de la República, 11400 Montevideo, Uruguay
José Sotelo-Silveira Departamento de Genómica, Instituto de Investigaciones Biológicas Clemente Estable, 11600 Montevideo, Uruguay Departamento de Biología Celular y Molecular, Sección Biología Celular, Facultad de Ciencias, Universidad de la República, 11400 Montevideo, Uruguay
Álvaro Martín Instituto de Computación, Facultad de Ingeniería, Universidad de la República, 11300 Montevideo, Uruguay

Collapse

CoLoRd: compressing long reads. Nat Methods 2022;19:441-444. [PMID: 35347321 DOI: 10.1038/s41592-022-01432-3] [Citation(s) in RCA: 7] [Impact Index Per Article: 2.3] [Reference Citation Analysis] [Abstract] [Track Full Text] [Journal Information] [Subscribe] [Scholar Register] [Received: 07/20/2021] [Accepted: 02/23/2022] [Indexed: 01/30/2023]

Bonfield JK. CRAM 3.1: advances in the CRAM file format. Bioinformatics 2022;38:1497-1503. [PMID: 34999766 PMCID: PMC8896640 DOI: 10.1093/bioinformatics/btac010] [Citation(s) in RCA: 4] [Impact Index Per Article: 1.3] [Reference Citation Analysis] [Abstract] [MESH Headings] [Grants] [Track Full Text] [Download PDF] [Figures] [Journal Information] [Subscribe] [Scholar Register] [Received: 10/11/2021] [Revised: 12/14/2021] [Accepted: 01/04/2022] [Indexed: 02/04/2023] Open

Dufort Y Álvarez G, Seroussi G, Smircich P, Sotelo-Silveira J, Ochoa I, Martín Á. RENANO: a REference-based compressor for NANOpore FASTQ files. Bioinformatics 2021;37:4862-4864. [PMID: 34128963 DOI: 10.1093/bioinformatics/btab437] [Citation(s) in RCA: 2] [Impact Index Per Article: 0.5] [Reference Citation Analysis] [Abstract] [Journal Information] [Subscribe] [Scholar Register] [Received: 04/13/2021] [Revised: 06/01/2021] [Accepted: 06/09/2021] [Indexed: 11/12/2022] Open

Chandak S, Tatwawadi T, Sridhar S, Weissman T. Impact of lossy compression of nanopore raw signal data on basecalling and consensus accuracy. Bioinformatics 2020;36:5313-5321. [PMID: 33325499 DOI: 10.1093/bioinformatics/btaa1017] [Citation(s) in RCA: 2] [Impact Index Per Article: 0.4] [Reference Citation Analysis] [Abstract] [Track Full Text] [Journal Information] [Subscribe] [Scholar Register] [Received: 07/20/2020] [Revised: 10/14/2020] [Accepted: 11/24/2020] [Indexed: 11/14/2022] Open