Comportamento do bootstrap no espaço probabilístico: Qual o número mínimo de réplicas de bootstrap para estabilizar o suporte de todos os clados de Cetáceos?
O método de bootstrap é uma ferramenta de reamostragem de dados utilizada para inferir a variabilidade de estimativas (Efron 1979), aplicada em diferentes análises estatísticas. Felsenstein (1985) explorou pela primeira vez o uso de bootstrap em filogenias, implementando o método para estabelecer intervalos de confiança aos clados reconstruídos. O bootstrap consiste em reamostragens aleatórias com reposição em uma matriz de dados original, a partir das quais são geradas novas matrizes. As topologias resultantes dessas reamostragens são então comparadas com a topologia original (Felsenstein 1985). Como resultado, a árvore original é apresentada com as proporções que os clados foram recuperados nas réplicas de bootstrap. Logo, clados que aparecem consistentemente em muitas réplicas são considerados mais robustos, enquanto clados que apresentam baixa replicabilidade sugerem incerteza em relação ao seu agrupamento (Felsenstein 1985). Portanto, é importante notar que este método estima a reprodutibilidade, e não a acurácia de um clado (Graur & Li 1997).
Alguns estudos apontaram problemas no uso do bootstrap, incluindo questionamentos sobre sua validade, replicabilidade e real significado (e.g., Carpenter 1992; Hillis & Bull 1993; Carpenter 1996). No entanto, o método de Felsenstein foi demonstrado como uma abordagem robusta e confiável (Felsenstein & Kishino 1993; Efron et al. 1996), aprimorada ao longo dos anos (Zharkikh & Li 1995; Susko 2010; Hoang et al. 2017; Lemoine et al. 2018). Uma questão passível de discussão em relação ao método é o número mínimo de réplicas de bootstrap para obter valores de suporte estáveis na melhor árvore filogenética encontrada (Fig. 1A). Em árvores grandes, a realização de réplicas em excesso pode ser custosa em termos de tempo de processamento computacional, sem necessariamente oferecer um aumento significativo na confiabilidade dos resultados (Andrews & Buchinsky 2000). Embora outros fatores como a robustez e a complexidade do conjunto de dados também devam ser considerados determinantes em análises filogenéticas (ver Sanderson & Shaffer 2002; Nabhan & Sarkar 2012).
Nosso projeto tem como objetivo geral explorar o comportamento do suporte bootstrap no espaço probabilístico da melhor árvore encontrada para os cetáceos. Cetáceos (Classe: Mammalia) formam um táxon altamente diversificado de mamíferos marinhos e estão divididos em dois grupos viventes: Mysticeti (cetáceos que apresentam barbatanas) e Odontoceti (cetáceos dentados) (Fig. 1 B-D). O grupo representa um bom modelo para o nosso estudo, pois possui uma grande variabilidade e disponibilidade de sequências moleculares em bases de dados. Dessa forma, buscamos: 1) determinar o número mínimo de réplicas de bootstrap necessárias para estabilizar o suporte de todos os clados da melhor árvore encontrada para o nosso conjunto de dados; e 2) investigar a correlação entre a estabilidade do suporte de um clado e o número mínimo de réplicas de bootstrap.

Conduziremos este projeto utilizando genomas mitocondriais completos de cinco linhagens representativas de cetáceos (3 odontoceti e 2 mysticeti), com Bos taurus Linnaeus, 1758 como outgroup. As sequências serão recuperadas do banco de dados GenBank e posteriormente alinhadas no software MEGA v11 (Molecular Evolutionary Genetics Analysis) (Kumar et al. 1994) utilizando o algoritmo MUSCLE (Cluster method UPGMA) (Edgar 2004). O modelo de evolução molecular que melhor se adequa ao conjunto de dados analisados será selecionado de acordo com o menor valor probabilístico bayesiano (BIC - Bayesian Information Criterion) por meio da análise “Find Best DNA/Protein Models (ML)” do software MEGA. As análises filogenéticas serão conduzidas através do método de reconstrução Maximum-Likelihood (ML) (Felsenstein 1982). A fim de examinar o comportamento do bootstrap no espaço analítico das árvores, utilizaremos diferentes valores de réplicas (50, 100, 500, 1000 e 2000), totalizando dez “corridas” independentes para cada parâmetro.
No final do projeto, espera-se que “corridas” independentes com um baixo número de réplicas apresentem um valor de suporte de bootstrap flutuante. Por convenção, à medida que o número de repetições aumenta (a partir de 1000 repetições), esperamos uma flutuação menor, tendendo a um ponto de estabilização (Müller 2005). Uma vez estabilizado, um número mínimo de réplicas de bootstrap poderá ser determinado para obtenção de resultados confiáveis. Por fim, esperamos que clados com suporte acima de 70% estabilizem mais rapidamente, com um número menor de réplicas de bootstrap. Em contraste, clados com suportes abaixo de 70% dependerão de um maior número de réplicas.
Referências Bibliográficas
Andrews, D. W., & Buchinsky, M. (2000). A three-step method for choosing the number of bootstrap repetitions. Econometrica, 68(1), 23-51.
Carpenter, J. M. (1992). Random cladistics. Cladistics 8, 147–153.
Carpenter, J. R. (1996). Simulated confidence regions for parameters in epidemiological models (Doctoral dissertation, University of Oxford).
Edgar, R. C. (2004). MUSCLE: A multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics, 5, 113.
Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The Annals of Statistics, 7(1), 1-26.
Efron, B., Halloran, E., & Holmes, S. (1996). Bootstrap confidence levels for phylogenetic trees. Proceedings of the National Academy of Sciences, 93(23), 13429-13434.
Felsenstein, J. (1982). Numerical methods for inferring evolutionary trees. The quarterly review of biology, 57(4), 379-404.
Felsenstein, J. (1985). Confidence limits on phylogenies: An approach using the bootstrap. Evolution, 39(4), 783-791.
Felsenstein, J., & Kishino, H. (1993). Is there something wrong with the bootstrap on phylogenies? A reply to Hillis and Bull. Systematic Biology, 42(2), 193-200.
Graur, D., & Li, W.-H. (1997). Molecular evolution. Sinauer Associates.
Hillis, D. M., & Bull, J. J. (1993). An empirical test of bootstrapping as a method for assessing confidence in phylogenetic analysis. Systematic Biology, 42(2), 182-192.
Hoang, D. T., Chernomor, O., Von Haeseler, A., Minh, B. Q., & Vinh, L. S. (2018). UFBoot2: Improving the ultrafast bootstrap approximation. Molecular Biology and Evolution, 35(2), 518-522.
Kumar, S., Tamura, K., & Nei, M. (1994). MEGA: Molecular evolutionary genetics analysis software. Version 1.0. The Pennsylvania State University.
Lemoine, F., Domelevo Entfellner, J. B., Wilkinson, E., Correia, D., Dávila Felipe, M., De Oliveira, T., & Gascuel, O. (2018). Renewing Felsenstein’s phylogenetic bootstrap in the era of big data. Nature, 556, 452–456.
Müller, K. F. (2005). The efficiency of different search strategies in estimating parsimony jackknife, bootstrap, and Bremer support. BMC Evolutionary Biology, 5, 58.
Nabhan, A. R., & Sarkar, I. N. (2012). The impact of taxon sampling on phylogenetic inference: a review of two decades of controversy. Briefings in bioinformatics, 13(1), 122-134.
Sanderson, M. J., & Shaffer, H. B. (2002). Troubleshooting molecular phylogenetic analyses. Annual Review of Ecology, Evolution, and Systematics, 33, 49-72.
Susko, E. (2010). First-order correct bootstrap support adjustments for splits that allow hypothesis testing when using maximum likelihood estimation. Molecular Biology and Evolution, 27, 1621-1629.
Wilke, C. O., & Adami, C. (2003). The robustness of molecular phylogenetic analyses to the complexity of the dataset. Molecular Phylogenetics and Evolution, 28(3), 381-393.
Zharkikh, A., & Li, W.-H. (1995). Estimation of confidence in phylogeny: The complete-and-partial bootstrap technique. Molecular Phylogenetics and Evolution, 4, 44-63.
Imagens
Orcinus orca: https://www.biodiversity4all.org/observations/131372020
Inia geoffrensis: https://www.junglexperiences.com/es/blog/delfin-rosado/
Megaptera novaeangliae: https://observation.org/species/1389/