Inhaltsverzeichnis
Die nachfolgende Tabelle und der darauf folgende JavaScript-Rechner liefern Werte für die statistische Signifikanz einer Übereinstimmung zwischen zwei inkongruenten phylogenetischen Bäumen, ausgedrückt als P-Werte. Diese P-Werte geben die Wahrscheinlichkeit an, dass zwei verzweigende, wurzelbasierte Bäume mit einer gegebenen Anzahl (oder weniger) von nicht übereinstimmenden Ästen zufällig übereinstimmen würden.
Die Anzahl der inkongruenten Äste wird relativ zum maximalen Übereinstimmungsbäumchen (MAST) zwischen zwei Bäumen bestimmt. Ein MAST ist das „Kern"-Bäumchen, das zwischen zwei Bäumen gemeinsam ist. Die Anzahl der inkongruenten Äste entspricht der minimalen Anzahl von Ästen, die von einem der echten Bäume abgeschnitten werden müssen, um das MAST zu erhalten. Ein Beispiel aus der Analyse von Krokodilarten durch John Harshman ist in der folgenden Abbildung dargestellt (Harshman et al. 2003).
Zwei inkongruente Krokodil-Phylogenien. Der Baum links basiert auf morphologischen Daten; der Baum rechts auf der molekularen Sequenz des c-myc-Proto-Onkogens (Harshman et al. 2003). Der gemeinsame MAST ist in Schwarz dargestellt. Gemäß dem oben beschriebenen Distanzmaß beträgt der Abstand zwischen den beiden Bäumen einen Ast, aufgrund des falsch platzierten Gavialis-Astes, der in Magenta markiert ist. Die Signifikanz der Übereinstimmung zwischen diesen beiden inkongruenten Phylogenien ist P ≤ 0,00077. Zusätzlich führten Harshman et al. eine unabhängige phylogenetische Analyse mit mitochondrialen Genen durch, die exakt denselben Baum ergab wie die Daten des c-myc-Proto-Onkogens. Die Gesamtbedeutung für diese drei unabhängigen Bäume ist P ≤ 7,4 × 10-8. |
In der nachstehenden Tabelle listen die Zeilen Werte für einen Vergleich von zwei Bäumen mit einer zunehmenden Anzahl von Taxa auf. Die Spalten listen die Signifikanz für eine gegebene Anzahl von Unterschieden zwischen den beiden Bäumen auf. Inkongruenz von "1 benachbart" bezieht sich auf den Fall, in dem ein Ast nur durch einen einzigen benachbarten Knoten falsch platziert ist (d. h., zwei nebeneinanderliegende Äste sind relativ zum anderen Baum vertauscht). Die verbleibenden Spalten, die mit 1 bis 10 beschriftet sind, beziehen sich auf den Fall, in dem x Äste oder weniger an irgendeiner Stelle im Baum falsch platziert sind. Hohe statistische Signifikanz (P < 0,01, oder mehr als 99 % Konfidenz) wird durch hellblau angezeigt. Statistische Signifikanz (P < 0,05, oder mehr als 95 % Konfidenz) wird durch rosa angezeigt. Zweifelhafte Werte (0,05 < P < 0,50) werden durch weiß angezeigt. Hoch insignifikante Werte (P > 0,50) werden durch rot angezeigt, und unmögliche Werte sind schwarz gefärbt.
| Anzahl der Taxa | Maximale P-Wert für zwei Bäume, die durch eine gegebene Anzahl von Ästen inkongruent sind: | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| exakt kongruent | 1 angrenzend | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
| 4 | 0.067 | 0.20 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 5 | 0.0095 | 0.038 | 0.28 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 6 | 0.0011 | 0.0052 | 0.050 | 0.97 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 7 | 9.6 x 10-5 | 5.8 x 10-4 | 0.0067 | 0.20 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 8 | 7.4 x 10-6 | 5.2 x 10-5 | 6.8 x 10-4 | 0.030 | 0.53 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 9 | 4.9 x 10-7 | 3.9 x 10-6 | 6.2 x 10-5 | 0.0035 | 0.089 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 10 | 2.9 x 10-8 | 2.6 x 10-7 | 4.6 x 10-6 | 3.3 x 10-4 | 0.012 | 0.22 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 11 | 1.5 x 10-9 | 1.5 x 10-8 | 3.0 x 10-7 | 2.7 x 10-5 | 0.0012 | 0.032 | 0.49 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| 12 | 7.2 x 10-11 | 8.0 x 10-10 | 1.8 x 10-8 | 1.9 x 10-6 | 1.1 x 10-4 | 0.0037 | 0.076 | 0.98 | 1.00 | 1.00 | 1.00 | 1.00 |
| 13 | 3.1 x 10-12 | 3.8 x 10-11 | 9.1 x 10-10 | 1.2 x 10-7 | 8.3 x 10-6 | 3.5 x 10-4 | 0.0095 | 0.17 | 1.00 | 1.00 | 1.00 | 1.00 |
| 14 | 1.2 x 10-13 | 1.6 x 10-12 | 4.3 x 10-11 | 6.6 x 10-9 | 5.6 x 10-7 | 2.9 x 10-5 | 9.9 x 10-4 | 0.022 | 0.33 | 1.00 | 1.00 | 1.00 |
| 15 | 4.6 x 10-15 | 6.6 x 10-14 | 1.8 x 10-12 | 3.3 x 10-10 | 3.3 x 10-8 | 2.1 x 10-6 | 8.7 x 10-5 | 0.0025 | 0.048 | 0.62 | 1.00 | 1.00 |
| 16 | 1.6 x 10-16 | 2.4 x 10-15 | 5.6 x 10-14 | 1.5 x 10-11 | 1.8 x 10-9 | 1.3 x 10-7 | 6.7 x 10-6 | 2.3 x 10-4 | 0.0056 | 0.095 | 1.00 | 1.00 |
| 17 | 5.2 x 10-18 | 8.3 x 10-17 | 2.1 x 10-15 | 6.4 x 10-13 | 8.6 x 10-11 | 7.5 x 10-9 | 4.5 x 10-7 | 1.9 x 10-5 | 5.6 x 10-4 | 0.012 | 0.18 | 1.00 |
| 18 | 1.5 x 10-19 | 2.7 x 10-18 | 7.4 x 10-17 | 2.5 x 10-14 | 3.8 x 10-12 | 3.9 x 10-10 | 2.7 x 10-8 | 1.4 x 10-6 | 4.9 x 10-5 | 0.0013 | 0.024 | 0.32 |
| 19 | 4.5 x 10-21 | 8.1 x 10-20 | 2.3 x 10-18 | 8.9 x 10-16 | 1.6 x 10-13 | 1.8 x 10-11 | 1.5 x 10-9 | 8.6 x 10-8 | 3.7 x 10-6 | 1.2 x 10-4 | 0.0027 | |
| 20 | 1.2 x 10-22 | 2.3 x 10-21 | 7.3 x 10-20 | 3.0 x 10-17 | 5.9 x 10-15 | 7.8 x 10-13 | 7.3 x 10-11 | 4.9 x 10-9 | 2.5 x 10-7 | 9.2 x 10-6 | 2.5 x 10-4 | 0.0054 |
| Anzahl der Taxa | ||||||||||||
| exakte Übereinstimmung | 1 benachbart | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
Mathematische Details
Für eine exakte Übereinstimmung zwischen zwei Bäumen (keine Inkongruenz):
P = (2N-2)(N-2)! / (2N-3)!
oder
P = 1 / (2N-3)!!
wobei "!!" die Doppel-Fakultäts--Notation ist und N = # der Taxa. Für eine Inkongruenz von "1 benachbartem" Ast:
P = (2N-2)(N-1)! / (2N-3)!
Für eine Inkongruenz von I Ästen, die irgendwo zwischen zwei Bäumen falsch platziert sind:
P ≤ (2N-I-2)(N-I-2)!N! / (2[N-I]-3)!(N-I)!I!
oder
P ≤ (N!/(N-I)!I!) / (2[N-I]-3)!!
wobei N = # der Taxa und I = # der inkongruenten Äste.
Diese letzte P-Wert-Berechnung ist eine obere Schranke. Das heißt, dieser P-Wert ist eine Überschätzung, da der tatsächliche P-Wert sehr wahrscheinlich niedriger (besser) ist. P ist das Verhältnis der maximalen Anzahl möglicher inkongruenter Bäume zur Gesamtzahl möglicher Bäume. Allerdings schließt die berechnete maximale Anzahl inkongruenter Bäume in der letzten Gleichung nicht-eindeutige Bäume ein (d.h. einige der inkongruenten Bäume haben dieselbe Topologie und werden daher mehr als einmal gezählt). Zum Beispiel, für N = 4 und I = 1 ergibt diese Berechnung P ≤ 1,3333, während der exakte P = 0,73333 ist. Bei großen N und I konvergiert P gegen den exakten Wert.
Diese Gleichungen können leicht auf den Fall von Diskrepanzen zwischen mehr als zwei Bäumen erweitert werden, wobei jeder derselben Anzahl von Taxa aufweist. Die Wahrscheinlichkeit, dass k wurzelnde, binäre, N-Taxa-Bäume höchstens I inkongruente Äste haben, ist:
P ≤ (N!/(N-I)!I!) / ((2[N-I]-3)!!){k - 1}
Äquivalent ist dies die Wahrscheinlichkeit, dass zwei oder mehr N-Taxa-Bäume denselben MAST der Größe N - I oder größer teilen. Der obige Javascript-Rechner verwendet diese Gleichung, um seine P-Werte zu bestimmen.
Ich würde mich freuen, von jedem gehört zu werden, der Ideen hat, wie man für nicht-eindeutige Bäume korrigieren kann. Ich habe die meisten dieser Gleichungen im Sommer 2002 unabhängig abgeleitet. Später habe ich durch persönliche Korrespondenz entdeckt, dass Mike Steel diese Gleichungen ebenfalls abgeleitet hat und bald alle außer der letzten in einem kommenden Buch veröffentlichen wird (Bryant et al. 2002). Es scheint, dass die letzte Gleichung sowohl von mir als auch von Mike Steel unabhängig abgeleitet wurde, und meines Wissens bleibt sie unveröffentlicht.
Referenzen
Li, W.-H. (1997). Molekulare Evolution. Sunderland, MA, Sinauer Associates. S. 102.
Bryant, D., MacKenzie, A. und Steel, M. (2002). "The size of a maximum agreement subtree for random binary trees." In: Bioconsensus II. DIMACS Series in Discrete Mathematics and Theoretical Computer Science (American Mathematical Society). ed., M.F. Janowitz.
Harshman, J., Huddleston, C. J., Bollback, J. P., Parsons, T. J., und Braun, M. J. (2003). "True and false gharials: a nuclear gene phylogeny of crocodylia." Syst Biol. 52: 386-402. [PubMed]