Índice
La tabla a continuación y la calculadora en JavaScript que le sigue proporcionan valores para la significancia estadística de una coincidencia entre dos árboles filogenéticos incongruentes, reportados como valores de P. Estos valores de P indican la probabilidad de que dos árboles bifurcantes con raíz, con un número dado (o menor) de ramas discordantes, coincidan por azar.
El número de ramas incongruentes se determina en relación con el subárbol de acuerdo máximo (MAST) entre dos árboles. Un MAST es el subárbol "núcleo" que es común entre dos árboles. El número de ramas incongruentes es igual al número mínimo de ramas que deben ser podadas de uno de los árboles reales para obtener el MAST. Un ejemplo del análisis de John Harshman sobre especies de cocodrilos se muestra en la figura a continuación (Harshman et al. 2003).
Dos filogenias incongruentes de cocodrilos. El árbol a la izquierda se basa en datos morfológicos; el árbol a la derecha, en la secuencia molecular del protooncogén c-myc (Harshman et al. 2003). El MAST común se muestra en negro. Según la métrica de distancia descrita anteriormente, la distancia entre los dos árboles es una rama, debido a la rama de Gavialis mal colocada indicada en magenta. La significancia del ajuste entre estas dos filogenias incongruentes es P ≤ 0.00077. Además, Harshman et al. realizaron un análisis filogenético independiente con genes mitocondriales, que dio exactamente el mismo árbol que los datos del protooncogén c-myc. La significancia global para estos tres árboles independientes es P ≤ 7.4 × 10-8. |
En la tabla a continuación, las filas listan valores para una comparación de dos árboles con un número creciente de taxones. Las columnas listan la significancia para un número dado de diferencias entre los dos árboles. La incongruencia de "1 adyacente" se refiere al caso en el que un ramillete está mal colocado por solo un nodo adyacente (es decir, dos ramas adyacentes se intercambian con respecto al otro árbol). Las columnas restantes etiquetadas del 1 al 10 se refieren al caso en el que x ramas o menos están mal colocadas en cualquier parte del árbol. Una significancia estadística alta (P < 0.01, o mayor que el 99% de confianza) se indica con azul claro. La significancia estadística (P < 0.05, o mayor que el 95% de confianza) se indica con rosa. Los valores equívocos (0.05 < P < 0.50) se indican con blanco. Los valores altamente insignificantes (P > 0.50) se indican con rojo, y los valores imposibles se colorean de negro.
| Número de taxones | Valor P máximo para dos árboles incongruentes por un número dado de ramas: | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| exactamente congruentes | 1 adyacente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| 4 | 0.067 | 0.20 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 5 | 0.0095 | 0.038 | 0.28 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 6 | 0.0011 | 0.0052 | 0.050 | 0.97 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 7 | 9.6 x 10-5 | 5.8 x 10-4 | 0.0067 | 0.20 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 8 | 7.4 x 10-6 | 5.2 x 10-5 | 6.8 x 10-4 | 0.030 | 0.53 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 9 | 4.9 x 10-7 | 3.9 x 10-6 | 6.2 x 10-5 | 0.0035 | 0.089 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 10 | 2.9 x 10-8 | 2.6 x 10-7 | 4.6 x 10-6 | 3.3 x 10-4 | 0.012 | 0.22 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 11 | 1.5 x 10-9 | 1.5 x 10-8 | 3.0 x 10-7 | 2.7 x 10-5 | 0.0012 | 0.032 | 0.49 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 12 | 7.2 x 10-11 | 8.0 x 10-10 | 1.8 x 10-8 | 1.9 x 10-6 | 1.1 x 10-4 | 0.0037 | 0.076 | 0.98 | 1.00 | 1.00 | 1.00 | 1.00 |
| 13 | 3.1 x 10-12 | 3.8 x 10-11 | 9.1 x 10-10 | 1.2 x 10-7 | 8.3 x 10-6 | 3.5 x 10-4 | 0.0095 | 0.17 | 1.00 | 1.00 | 1.00 | 1.00 |
| 14 | 1.2 x 10-13 | 1.6 x 10-12 | 4.3 x 10-11 | 6.6 x 10-9 | 5.6 x 10-7 | 2.9 x 10-5 | 9.9 x 10-4 | 0.022 | 0.33 | 1.00 | 1.00 | 1.00 |
| 15 | 4.6 x 10-15 | 6.6 x 10-14 | 1.8 x 10-12 | 3.3 x 10-10 | 3.3 x 10-8 | 2.1 x 10-6 | 8.7 x 10-5 | 0.0025 | 0.048 | 0.62 | 1.00 | 1.00 |
| 16 | 1.6 x 10-16 | 2.4 x 10-15 | 5.6 x 10-14 | 1.5 x 10-11 | 1.8 x 10-9 | 1.3 x 10-7 | 6.7 x 10-6 | 2.3 x 10-4 | 0.0056 | 0.095 | 1.00 | 1.00 |
| 17 | 5.2 x 10-18 | 8.3 x 10-17 | 2.1 x 10-15 | 6.4 x 10-13 | 8.6 x 10-11 | 7.5 x 10-9 | 4.5 x 10-7 | 1.9 x 10-5 | 5.6 x 10-4 | 0.012 | 0.18 | 1.00 |
| 18 | 1.5 x 10-19 | 2.7 x 10-18 | 7.4 x 10-17 | 2.5 x 10-14 | 3.8 x 10-12 | 3.9 x 10-10 | 2.7 x 10-8 | 1.4 x 10-6 | 4.9 x 10-5 | 0.0013 | 0.024 | 0.32 |
| 19 | 4.5 x 10-21 | 8.1 x 10-20 | 2.3 x 10-18 | 8.9 x 10-16 | 1.6 x 10-13 | 1.8 x 10-11 | 1.5 x 10-9 | 8.6 x 10-8 | 3.7 x 10-6 | 1.2 x 10-4 | 0.0027 | 0.046 |
| 20 | 1.2 x 10-22 | 2.3 x 10-21 | 7.3 x 10-20 | 3.0 x 10-17 | 5.9 x 10-15 | 7.8 x 10-13 | 7.3 x 10-11 | 4.9 x 10-9 | 2.5 x 10-7 | 9.2 x 10-6 | 2.5 x 10-4 | 0.0054 |
| Número de taxones | ||||||||||||
| coincidencia exacta | 1 adyacente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
Detalles matemáticos
Para una coincidencia exacta entre dos árboles (sin incongruencia):
P = (2N-2)(N-2)! / (2N-3)!
o
P = 1 / (2N-3)!!
donde "!!" es la notación de factorial doble y N = # de taxones. Para una incongruencia de "1 rama adyacente":
P = (2N-2)(N-1)! / (2N-3)!
Para una incongruencia de I ramas, situadas en cualquier lugar entre dos árboles:
P ≤ (2N-I-2)(N-I-2)!N! / (2[N-I]-3)!(N-I)!I!
o
P ≤ (N!/(N-I)!I!) / (2[N-I]-3)!!
donde N = # de taxones y I = # de ramas incongruentes.
Este último cálculo del valor P es un límite superior. Es decir, este valor P es una sobreestimación, ya que el valor P real es muy probablemente menor (mejor). P es la razón entre el número máximo de árboles incongruentes posibles y el número total de árboles posibles. Sin embargo, en la ecuación final, el número máximo calculado de árboles incongruentes incluye árboles no únicos (es decir, algunos de los árboles incongruentes tienen la misma topología y por lo tanto se cuentan más de una vez). Por ejemplo, para N = 4 y I = 1, este cálculo da P ≤ 1.3333, mientras que el valor P exacto es 0.73333. Para grandes N y I, P converge al valor exacto.
Estas ecuaciones pueden extenderse fácilmente al caso de discrepancias entre más de dos árboles, cada uno con el mismo número de taxones. La probabilidad de que k árboles binarios y enraizados de N-taxones tengan como máximo I ramas incongruentes es:
P ≤ (N!/(N-I)!I!) / ((2[N-I]-3)!!){k - 1}
Equivalentemente, esto es la probabilidad de que dos o más árboles de N-taxones compartan el mismo MAST de tamaño N - I o mayor. La calculadora de Javascript anterior utiliza esta ecuación para determinar sus valores P.
Agradecería escuchar de cualquier persona que tenga ideas sobre cómo corregir los árboles no únicos. Derivé independientemente la mayoría de estas ecuaciones en el verano de 2002. Más tarde descubrí mediante correspondencia personal que Mike Steel también había derivado estas ecuaciones y estaba a punto de publicar todas menos la última en un libro inminente (Bryant et al. 2002). Parece que la ecuación final fue derivada independientemente tanto por mí como por Mike Steel, y a mi conocimiento sigue sin estar publicada.
Referencias
Li, W.-H. (1997). Evolución Molecular. Sunderland, MA, Sinauer Associates. p. 102.
Bryant, D., MacKenzie, A. y Steel, M. (2002). "El tamaño de un árbol de acuerdo máximo para árboles binarios aleatorios." En: Bioconsenso II. DIMACS Series in Discrete Mathematics and Theoretical Computer Science (Sociedad Matemática Americana). ed., M.F. Janowitz.
Harshman, J., Huddleston, C. J., Bollback, J. P., Parsons, T. J., y Braun, M. J. (2003). "Gharials verdaderos y falsos: una filogenia de genes nucleares de crocodilia." Syst Biol. 52: 386-402. [PubMed]