Bloco 3: Relatório final
Comentários Revisores
Relatório bem escrito e bem apresentado, boas figuras, boas práticas de escrita.
A explicação dos métodos, principalmente relativa a modelos ficou confusa — ainda não sabemos qual foi o modelo utilizado para reconstrução genomica, nos parece que nas diferente réplicas, alternadamente o iqtree determinou modelos diferentes (se for esse o caso vcs deveriam ter forçado a ficar em um só modelo, mas tudo bem para os propósitos do exercício). De qualquer maneira, não está claro o que aconteceu pela redação
Nota 9.5 (será aplicada de maneira igualitária a todos os membros do grupo, a não ser que nos enviem email com o contrário).
G3-B3
Comportamento do bootstrap no espaço probabilístico: Qual o número mínimo de réplicas de bootstrap para estabilizar o suporte de todos os clados de Cetáceos?
O método de bootstrap é uma ferramenta de reamostragem utilizada para estimar a variabilidade de dados [1], que fornece intervalos de confiança em filogenias [2]. Embora já tenha sido demonstrado como uma abordagem robusta e confiável [3; 4], um tópico que ainda permanece em discussão é a determinação do número mínimo de réplicas necessárias para obter valores de suporte estáveis em árvores filogenéticas [5] (Figura 1A). Réplicas em excesso podem ser computacionalmente custosas, sem ganhos significativos na confiabilidade dos agrupamentos [6]. Além disso, fatores como a robustez e a complexidade do conjunto de dados também devem ser considerados determinantes na análise dos resultados obtidos pelo método [7; 8]. No presente trabalho exploramos o comportamento do suporte bootstrap no espaço probabilístico da melhor árvore filogenética encontrada para cetáceos, utilizando dois conjuntos de dados: genoma e mitogenoma. Assim, o estudo teve como objetivos: 1) determinar o número mínimo de réplicas de bootstrap necessárias para estabilizar o suporte de todos os clados da melhor árvore encontrada para os nossos conjuntos de dados; e 2) investigar a correlação entre a estabilidade do suporte de um clado e o número mínimo de réplicas.

Figura 1. Comportamento do suporte bootstrap. A) Três análises filogenéticas independentes realizadas pelo método de reconstrução Maximum-Likelihood (100 réplicas bootstrap) do grupo de cetáceos, mostrando diferentes valores de suporte indicados pelo círculo vermelho. Táxons terminais utilizados na análise - Odontoceti: Physeter catodon (Linnaeus, 1758) (B) e Orcinus orca Linnaeus, 1758 (C); Mysticeti: Eubalaena glacialis (Müller, 1776) (D), com Bos taurus Linnaeus, 1758 como grupo externo.
Conduzimos este projeto utilizando genomas nucleares (sequência de aminoácidos - AA) e mitocondriais (sequência de nucleotídeos - NT) de linhagens representativas de cetáceos (3 odontoceti e 2 mysticeti) (Fig. 1B-D), com Bos taurus Linnaeus, 1758 como outgroup. As sequências foram recuperadas do banco de dados GenBank. Para a análise do genoma nuclear, realizamos uma busca por homologia contra o metazoa_odb10.2019-11-20 database (n=954 genes de cópia única) para a identificação dos genes ortólogo com o software BUSCO v5.2.2 [9]. Em seguida, utilizamos um script em Python adaptado de McGowan (2024)[10] para alinhar as sequências (MAFFT v7) [11], refinar o alinhamento (TrimAl v1.4) [12], e construir a matriz de concatenamento (supermatriz). Para o mitogenoma, alinhamos as sequências com o MAFFT (estratégia FFT-NS-2) e refinamos o alinhamento com o TrimAl seguindo um script pessoal (Material Suplementar 01). Realizamos as análises filogenéticas utilizando o software IQ-TREE2 [13], com o método Maximum-Likelihood [14]. Os modelos de evolução molecular mais adequados foram selecionados automaticamente de acordo com o menor valor probabilístico bayesiano - BIC: genoma (JTT+F+I, LG, JTT+F+G4, JTT+G4, HIVb+F+I ) e mitogenoma (GTR+F+G4). Executamos cinco “corridas” independentes para cada valor de réplica de bootstrap (50, 100, 500, 1000, 1500 e 2000). Por fim, com os resultados obtidos, criamos gráficos no software R [15] para ilustrar o comportamento do bootstrap no espaço probabilístico de ambas as análises.
As reconstruções filogenéticas utilizando dados de NT e AA resultaram na mesma topologia, mas com valores de suporte distintos (Fig. 2). O suporte estatístico do bootstrap foi significativamente mais elevado em árvores construídas a partir da matriz de concatenação dos genes ortólogos universais de cópia única (Fig. 3A). Essas mesmas árvores apresentaram menor variação no suporte bootstrap (mínimo de 96 - máximo de 100) quando comparadas com as árvores derivadas de mitogenoma (Min. 62 - Máx. 76) (Fig. 3A). A estabilidade do suporte entre as corridas independentes foi atingida com um menor número de réplicas na análise genômica, 500 (Fig. 3B). Entretanto, não foi possível determinar um número mínimo de replicações necessárias para estabilizar o suporte do clado reconstruído a partir de mitogenomas, embora uma certa tendência à estabilidade tenha sido observada com 2000 réplicas (Fig. 3B). Além disso, à medida que o número de réplicas e tamanho do conjunto de dados aumentaram, um maior esforço computacional (tempo) foi observado (Fig. 3C).

Figura 2. Reconstrução filogenética de cetáceos com Maximum-Likelihood. O painel à esquerda mostra a filogenia baseada no alinhamento múltiplo das sequências de proteína dos genes ortólogos universais de cópia única (BUSCO) do genoma nuclear (AA). O painel à direita, por sua vez, apresenta a filogenia baseada no alinhamento de sequências de nucleotídeo de mitogenomas (NT). Ambas as reconstruções resultaram na mesma topologia, com diferentes valores de suporte bootstrap.

Figura 3. Análises estatísticas do comportamento do suporte bootstrap em ambos os conjuntos de dados (Genoma e Mitogenoma). A) Padrão de variação do suporte dos clados utilizando diferentes valores de réplicas de bootstrap. B) Curvas de tendência da estabilidade de suporte. Em análises genômicas, a estabilidade foi alcançada com 500 réplicas. C) Relação entre o tempo de execução e número de réplicas de bootstrap. A cor azul corresponde aos resultados das “corridas” com dados de mitogenoma, e a cor vermelha representa “corridas” com dados de genoma.
Este estudo demonstrou que 500 réplicas de bootstrap são suficientes para gerar resultados confiáveis no conjunto de dados de genoma de cetáceos, logo replicações excessivas acima deste valor não aumentarão significativamente o suporte filogenético. Entretanto, apesar do alto número de réplicas “corridas”, o valor de suporte bootstrap não estabilizou em mitogenomas. Consequentemente, concluímos que a qualidade do conjunto de dados é determinante para o estabelecimento de um valor mínimo de réplicas. O comprimento limitado das sequências, podem ter gerado limitações no suporte dos clados de mitogenomas. Por fim, clados com suporte >90% estabilizaram com menos réplicas, enquanto clados com suporte <70% demandaram de um maior número de replicações. Demonstramos, portanto, uma relação inversamente proporcional, na qual valores de suportes mais elevados requerem um menor número de réplicas para estabilizar.
Referências Bibliográficas
1. Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1-26.
2. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: A maximum likelihood approach. Journal of Molecular Evolution, 17, 368-376.
3. Felsenstein, J., & Kishino, H. (1993). Is there something wrong with the bootstrap on phylogenies? A reply to Hillis and Bull. Systematic Biology, 42(2), 193-200.
4. Efron, B., Halloran, E., & Holmes, S. (1996). Bootstrap confidence levels for phylogenetic trees. Proceedings of the National Academy of Sciences, 93(23), 13429-13434.
5. Pattengale, N. D., Alipour, M., Bininda-Emonds, O. R., Moret, B. M., & Stamatakis, A. (2009). How many bootstrap replicates are necessary?. In Research in Computational Molecular Biology: 13th Annual International Conference, RECOMB 2009, Tucson, AZ, USA, May 18-21, 2009. Proceedings, 13,184-200. Springer Berlin Heidelberg.
6. Andrews, D. W., & Buchinsky, M. (2000). A three-step method for choosing the number of bootstrap repetitions. Econometrica, 68(1), 23-51.
7. Sanderson, M. J., & Shaffer, H. B. (2002). Troubleshooting molecular phylogenetic analyses. Annual Review of Ecology, Evolution, and Systematics, 33, 49-72.
8. Nabhan, A. R., & Sarkar, I. N. (2012). The impact of taxon sampling on phylogenetic inference: a review of two decades of controversy. Briefings in bioinformatics, 13(1), 122-134.
9. Manni, M., Berkeley, M. R., Seppey, M., Simão, F. A., & Zdobnov, E. M. (2021). BUSCO update: novel and streamlined workflows along with broader and deeper phylogenetic coverage for scoring of eukaryotic, prokaryotic, and viral genomes. Molecular biology and evolution, 38(10), 4647-4654.
10. https://github.com/jamiemcg/BUSCO_phylogenomics
11. Rozewicki, J., Li, S., Amada, K. M., Standley, D. M., & Katoh, K. (2019). MAFFT-DASH: integrated protein sequence and structural alignment. Nucleic acids research, 47(W1), W5-W10.
12. Capella-Gutiérrez, S., Silla-Martínez, J. M., & Gabaldón, T. (2009). trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics, 25(15), 1972-1973.
13 Minh, B. Q., Schmidt, H. A., Chernomor, O., Schrempf, D., Woodhams, M. D., Von Haeseler, A., & Lanfear, R. (2020). IQ-TREE 2: new models and efficient methods for phylogenetic inference in the genomic era. Molecular biology and evolution, 37(5), 1530-1534.
14. Felsenstein, J. (1982). Numerical methods for inferring evolutionary trees. The quarterly review of biology, 57(4), 379-404.
15. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria (2021). https://www.R-project.org/
Referências imagens
Physeter catodon: https://www.imageprofessionals.com/en/images/70221776-Sperm-Whale-Physeter-catodon-Azores-Atlantic-Ocean-Portugal
Eubalaena australis: https://animalia.bio/index.php/pt/southern-right-whale
Orcinus orca: https://www.biodiversity4all.org/observations/131372020