Sumário
A tabela abaixo e a calculadora em JavaScript que se segue fornecem valores para a significância estatística de uma correspondência entre duas árvores filogenéticas incongruentes, relatados como valores de P. Estes valores de P indicam a probabilidade de que duas árvores bifurcantes enraizadas, com um número determinado (ou menor) de ramos não correspondentes, coincidam por acaso.
O número de ramos incongruentes é determinado em relação à subárvore de máxima concordância (MAST) entre duas árvores. Uma MAST é a subárvore "núcleo" que é comum entre duas árvores. O número de ramos incongruentes é igual ao número mínimo de ramos que devem ser podados de uma das árvores reais para obter a MAST. Um exemplo da análise de John Harshman sobre espécies de crocodilos é apresentado na figura abaixo (Harshman et al. 2003).
Dois filogenéticos de crocodilos incongruentes. A árvore à esquerda é baseada em dados morfológicos; a árvore à direita na sequência molecular do proto-oncogene c-myc (Harshman et al. 2003). O MAST comum é mostrado em preto. De acordo com a métrica de distância descrita acima, a distância entre as duas árvores é um ramo, devido ao ramo de Gavialis mal posicionado indicado em magenta. A significância do ajuste entre essas duas filogenias incongruentes é P ≤ 0,00077. Além disso, Harshman et al. realizaram uma análise filogenética independente com genes mitocondriais, que resultou exatamente na mesma árvore que os dados do proto-oncogene c-myc. A significância geral para essas três árvores independentes é P ≤ 7,4 × 10-8. |
Na tabela abaixo, as linhas listam valores para uma comparação de duas árvores com números crescentes de táxons. As colunas listam a significância para um número dado de diferenças entre as duas árvores. A incongruência de "1 adjacente" refere-se ao caso em que um ramo está mal posicionado por apenas um nó adjacente (ou seja, dois ramos um ao lado do outro são trocados em relação à outra árvore). As colunas restantes rotuladas de 1 a 10 referem-se ao caso em que x ramos ou menos estão mal posicionados em qualquer lugar da árvore. Alta significância estatística (P < 0,01, ou maior que 99% de confiança) é indicada por azul claro. Significância estatística (P < 0,05, ou maior que 95% de confiança) é indicada por rosa. Valores ambíguos (0,05 < P < 0,50) são indicados por branco. Valores altamente insignificantes (P > 0,50) são indicados por vermelho, e valores impossíveis são coloridos em preto.
| Número de táxons | Valor máximo P para duas árvores incongruentes por número dado de ramos: | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| exatamente congruente | 1 adjacente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| 4 | 0,067 | 0,20 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 |
| 5 | 0.0095 | 0.038 | 0.28 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 6 | 0.0011 | 0.0052 | 0.050 | 0.97 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 7 | 9.6 x 10-5 | 5.8 x 10-4 | 0.0067 | 0.20 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 8 | 7.4 x 10-6 | 5.2 x 10-5 | 6.8 x 10-4 | 0.030 | 0.53 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 9 | 4.9 x 10-7 | 3.9 x 10-6 | 6.2 x 10-5 | 0.0035 | 0.089 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 10 | 2.9 x 10-8 | 2.6 x 10-7 | 4.6 x 10-6 | 3.3 x 10-4 | 0.012 | 0.22 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 11 | 1.5 x 10-9 | 1.5 x 10-8 | 3.0 x 10-7 | 2.7 x 10-5 | 0.0012 | 0.032 | 0.49 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 12 | 7.2 x 10-11 | 8.0 x 10-10 | 1.8 x 10-8 | 1.9 x 10-6 | 1.1 x 10-4 | 0.0037 | 0.076 | 0.98 | 1.00 | 1.00 | 1.00 | 1.00 |
| 13 | 3.1 x 10-12 | 3.8 x 10-11 | 9.1 x 10-10 | 1.2 x 10-7 | 8.3 x 10-6 | 3.5 x 10-4 | 0.0095 | 0.17 | 1.00 | 1.00 | 1.00 | 1.00 |
| 14 | 1.2 x 10-13 | 1.6 x 10-12 | 4.3 x 10-11 | 6.6 x 10-9 | 5.6 x 10-7 | 2.9 x 10-5 | 9.9 x 10-4 | 0.022 | 0.33 | 1.00 | 1.00 | 1.00 |
| 15 | 4.6 x 10-15 | 6.6 x 10-14 | 1.8 x 10-12 | 3.3 x 10-10 | 3.3 x 10-8 | 2.1 x 10-6 | 8.7 x 10-5 | 0.0025 | 0.048 | 0.62 | 1.00 | 1.00 |
| 16 | 1.6 x 10-16 | 2.4 x 10-15 | 5.6 x 10-14 | 1.5 x 10-11 | 1.8 x 10-9 | 1.3 x 10-7 | 6.7 x 10-6 | 2.3 x 10-4 | 0.0056 | 0.095 | 1.00 | 1.00 |
| 17 | 5.2 x 10-18 | 8.3 x 10-17 | 2.1 x 10-15 | 6.4 x 10-13 | 8.6 x 10-11 | 7.5 x 10-9 | 4.5 x 10-7 | 1.9 x 10-5 | 5.6 x 10-4 | 0.012 | 0.18 | 1.00 |
| 18 | 1.5 x 10-19 | 2.7 x 10-18 | 7.4 x 10-17 | 2.5 x 10-14 | 3.8 x 10-12 | 3.9 x 10-10 | 2.7 x 10-8 | 1.4 x 10-6 | 4.9 x 10-5 | 0.0013 | 0.024 | 0.32 |
| 19 | 4.5 x 10-21 | 8.1 x 10-20 | 2.3 x 10-18 | 8.9 x 10-16 | 1.6 x 10-13 | 1.8 x 10-11 | 1.5 x 10-9 | 8.6 x 10-8 | 3.7 x 10-6 | 1.2 x 10-4 | 0.0027 | 0.046 |
| 20 | 1.2 x 10-22 | 2.3 x 10-21 | 7.3 x 10-20 | 3.0 x 10-17 | 5.9 x 10-15 | 7.8 x 10-13 | 7.3 x 10-11 | 4.9 x 10-9 | 2.5 x 10-7 | 9.2 x 10-6 | 2.5 x 10-4 | 0.0054 |
| Número de táxons | ||||||||||||
| correspondência exata | 1 adjacente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
Detalhes Matemáticos
Para uma correspondência exata entre duas árvores (sem incongruência):
P = (2N-2)(N-2)! / (2N-3)!
ou
P = 1 / (2N-3)!!
onde "!!" é a notação de fatorial duplo e N = # de táxons. Para uma incongruência de "1 ramo adjacente":
P = (2N-2)(N-1)! / (2N-3)!
Para uma incongruência de I ramos, posicionados incorretamente em qualquer lugar entre duas árvores:
P ≤ (2N-I-2)(N-I-2)!N! / (2[N-I]-3)!(N-I)!I!
ou
P ≤ (N!/(N-I)!I!) / (2[N-I]-3)!!
onde N = # de táxons e I = # de ramos incongruentes.
Este último cálculo do valor P é um limite superior. Ou seja, este valor P é uma superestimação, já que o valor P real é muito provavelmente menor (melhor). P é a razão entre o número máximo de árvores incongruentes possíveis e o número total de árvores possíveis. No entanto, na equação final, o número máximo de árvores incongruentes calculado inclui árvores não únicas (ou seja, algumas das árvores incongruentes têm a mesma topologia e, portanto, são contadas mais de uma vez). Por exemplo, para N = 4 e I = 1, este cálculo fornece P ≤ 1,3333, enquanto o valor exato P = 0,73333. Para grandes N e I, P converge para o valor exato.
Estas equações podem ser estendidas facilmente ao caso de discrepâncias entre mais de duas árvores, cada uma com o mesmo número de táxons. A probabilidade de que k árvores enraizadas, binárias, de N-táxons tenham no máximo I ramos incongruentes é:
P ≤ (N!/(N-I)!I!) / ((2[N-I]-3)!!){k - 1}
Equivalentemente, esta é a probabilidade de que duas ou mais árvores de N-táxons compartilhem o mesmo MAST de tamanho N - I ou maior. A calculadora Javascript acima utiliza esta equação para determinar seus valores P.
Agradeceria ouvir de qualquer pessoa que tenha alguma ideia sobre como corrigir para árvores não únicas. Derivei independentemente a maioria destas equações no verão de 2002. Mais tarde, descobri por meio de correspondência pessoal que Mike Steel também havia derivado estas equações e estava prestes a publicar todas, exceto a última, em um livro próximo (Bryant et al. 2002). Parece que a equação final foi derivada independentemente tanto por mim quanto por Mike Steel, e, ao meu conhecimento, permanece inédita.
Referências
Li, W.-H. (1997). Evolução Molecular. Sunderland, MA, Sinauer Associates. p. 102.
Bryant, D., MacKenzie, A. e Steel, M. (2002). "O tamanho de uma árvore de acordo máximo para árvores binárias aleatórias." Em: Bioconsenso II. Série DIMACS em Matemática Discreta e Ciência da Computação Teórica (Sociedade Matemática Americana). ed., M.F. Janowitz.
Harshman, J., Huddleston, C. J., Bollback, J. P., Parsons, T. J., e Braun, M. J. (2003). "Gharials verdadeiros e falsos: uma filogenia de genes nucleares de crocodilianos." Syst Biol. 52: 386-402. [PubMed]