Einführung in die Phylogenetik
Einführung in die Phylogenetik
Die Abstammung von einem gemeinsamen Vorfahren beinhaltet einen Prozess der Verzweigung und Divergenz, der mit jedem genealogischen Prozess gemeinsam ist. Genealogien können durch baumartige Diagramme grafisch dargestellt werden, weshalb Biologen die Genealogie von Arten oft als "Lebensbaum" bezeichnen. In der Evolutionstheorie werden Diagramme wie diese als phylogenetische Bäume oder Phylogenien bezeichnet. Eine der wichtigsten, mächtigsten und grundlegendsten Vorhersagen aus der Hypothese der universellen gemeinsamen Abstammung ist die Existenz eines einzigartigen, historischen, universellen phylogenetischen Baums für Arten, die sich primär durch vertikale genetische Mechanismen fortpflanzen (eine andere Art der Vererbung, horizontaler Gentransfer, kann Phylogenien und sogar das Konzept einer Art erschweren, siehe Einschränkungen unten). Ein gründliches Verständnis der Phylogenetik ist notwendig, um makroevolutionäre Schlussfolgerungen zu verstehen. Das Konsensmodell, das evolutionäre Biologen verwenden, um die gut gestützten Äste des universellen Lebensbaums darzustellen, werde ich als "standardmäßigen phylogenetischen Baum" bezeichnen. Abbildung 1 zeigt ein vereinfachtes Beispiel einiger bekannterer Äste des universellen phylogenetischen Baums.
Im folgenden Abschnitt finden Sie eine kurze Übersicht über phylogenetische Bäume und darüber, wie Biologen diese bestimmen. Diese Übersicht wird im Verlauf zunehmend technischer. Das Material bis zum Abschnitt Maximum Parsimony ist für das Verständnis des Restes dieser FAQ unerlässlich. Die verbleibende phylogenetische Diskussion wird zur Vollständigkeit gegeben, um dem interessierten Leser die Möglichkeit zu bieten, so tief einzusteigen, wie er es wünscht.
Abbildung 1. Der Konsens-Phylogenetische Baum des gesamten Lebens. |
Phylogenetische Bäume stellen evolutionäre Beziehungen dar
Die Phylogenetik ist die wissenschaftliche Disziplin, die sich mit der Beschreibung und Rekonstruktion der Muster genetischer Beziehungen zwischen Arten und höheren Taxa befasst. Phylogenetische Bäume sind eine bequeme Möglichkeit, die evolutionäre Geschichte des Lebens visuell darzustellen. Diese Diagramme veranschaulichen die inferred Beziehungen zwischen Organismen und die Reihenfolge der Artbildungsereignisse, die von früheren gemeinsamen Vorfahren zu ihren diversifizierten Nachkommen führten.
Ein phylogenetischer Baum besteht aus mehreren Teilen, die in Abbildung 2 dargestellt sind. Knoten repräsentieren taxonomische Einheiten, wie z. B. einen Organismus, eine Art, eine Population, einen gemeinsamen Vorfahren oder sogar ein ganzes Genus oder eine andere höhere taxonomische Gruppe. Äste verbinden Knoten eindeutig und repräsentieren genetische Beziehungen. Das spezifische Verzweigungsmuster bestimmt die Topologie des Baumes. Skalierte Bäume haben Astlängen, die proportional zu einer wichtigen biologischen Eigenschaft sind, wie z. B. der Anzahl der Aminosäureänderungen zwischen Knoten auf einer Protein-Phylogenie (siehe Abbildung 3). Bäume können auch wurzelhaft oder wurzellos sein. Wurzelhafte Bäume besitzen einen speziellen Knoten, den Wurzelknoten, der einen gemeinsamen Vorfahren aller im Baum dargestellten Taxa repräsentiert. Wurzelhafte Bäume sind somit gerichtet, da alle Taxa von der Wurzel abstammen. Wurzellose Bäume illustrieren lediglich Beziehungen, ohne Bezug auf gemeinsame Vorfahren.
Ein weit verbreiteter Irrtum besteht darin, dass einige moderne Arten Vorfahren anderer moderner Arten sind. Tatsächlich befinden sich jedoch alle modernen Arten an den Enden der Äste des Stammbaums, und jede moderne Art ist evolutionär genauso „entwickelt" wie jede andere. Das bedeutet, dass zwar Säugetiere als von etwas abstammend betrachtet werden, das modernen Reptilien ähnelte, moderne Reptile jedoch evolutionär genauso „alt" sind wie moderne Säugetiere (Brooks 1991, S. 68; Futuyma 1998, S. 113).
Verfahren zur Bestimmung phylogenetischer Bäume: Kladistik und numerische Phylogenetik
Alle reinen Vögel sollt ihr essen.
Doch diese sollt ihr nicht essen:
Der Adler, und der Ossifrage, und der Ospray,
Und der Glede, und der Geier, und der Geier nach seiner Art,
Und jeder Raben nach seiner Art,
Und die Eule, und der Nachthhab, und der Kukuk, und der Habicht nach seiner Art,
Die kleine Eule, und die große Eule, und der Schwan,
Und der Pelikan, und der gier Adler, und der Kormoran,
Und der Storch, und die Reiher nach ihrer Art, und der Lappenschwan,
und das Fledermaus.Deuteronomium 14:11-18, KJV
Wenn moderne Arten von ihren Vorfahren in dieser baumartigen, verzweigenden Weise abstammen, sollte es möglich sein, den wahren historischen Stammbaum zu erschließen, der ihre Abstammungspfade verfolgt. Phylogenetische Bäume werden seit Darwin vor über 140 Jahren erstmals die gemeinsame Abstammung des Lebens vorschlug, von Biologen erschlossen. Rigorose algorithmische Methoden zur Inferenz phylogenetischer Bäume werden seit über 50 Jahren eingesetzt.
Im Jahr 1950 schlug der Taxonom Willi Hennig eine Methode zur Bestimmung phylogenetischer Bäume auf der Grundlage der Morphologie vor, indem er Organismen nach ihren gemeinsamen abgeleiteten Merkmalen klassifizierte, die als Synapomorphien bezeichnet werden (Hennig 1966). Diese Methode, die heute als Kladistik bekannt ist, geht nicht von einer genealogischen Verwandtschaft a priori aus, da sie prinzipiell zur Klassifizierung von allem verwendet werden kann, auch von Dingen wie Büchern, Autos oder Stühlen, die offensichtlich keine genealogische Verwandtschaft im biologischen Sinne aufweisen (Kitching et al. 1998, Ch. 1, p. 26; ). Hennig rechtfertigte diese Methode jedoch mit fundierten evolutionären Argumenten als die geeignetste Klassifikationstechnik zur Schätzung evolutionärer Beziehungen, die durch lineare Abstammung entstehen. Tatsächlich ist Hennigs kladistische Methode nichts anderes als eine Formalisierung der Methoden, die systematische Biologen seit Linnaeus' Abfassung des Systema Naturae intuitiv anwendeten. Biologen konstruieren heute ihre phylogenetischen Bäume auf Basis von Hennigs Methode, und aufgrund der Kladistik sind diese phylogenetischen Bäume reproduzierbar und unabhängig überprüfbar (Brooks 1991, Ch. 2; Kitching et al. 1998).
| Phylogenetischer Jargon |
|---|
|
Apomorphie: Ein abgeleitetes Merkmal einer Gruppe von Organismen, das nicht mit den Vorfahren einer Gruppe von Organismen geteilt wird. Apomorphien sind einzigartig für die Gruppe und sind daher gruppenbildend. Bootstrap: Ein technisches statistisches Verfahren zur Schätzung der Variabilität einer Messung. In der Phylogenetik umfasst das Bootstrapping die Erstellung eines neuen, pseudo-Datensatzes durch zufälliges Ziehen von Datenpunkten aus dem ursprünglichen Datensatz. Für jeden Pseudo-Datensatz wird eine neue Phylogenie abgeleitet. Runden dieses Verfahrens liefern eine Schätzung der gut- und schlecht unterstützten Regionen der ursprünglichen Phylogenie. Merkmal: Eine beobachtbare Eigenschaft eines Organismus, die zur Unterscheidung von einem anderen genutzt werden kann. Zum Beispiel ein Nukleotid in einer DNA-Sequenz, eine Aminosäure in einer Proteinsequenz oder morphologische Merkmale wie Haare, Federn oder das Vorhandensein oder Fehlen bestimmter Knochen. Kladistik: Eine Klasse phylogenetischer Techniken, die Bäume (Kladogramme) konstruieren, indem Taxa in verschachtelte Hierarchien nach gemeinsamen abgeleiteten Merkmalen (Synapomorphien) gruppiert werden. Die Kladistik ist eng mit dem Parsimonie-Kriterium verbunden. Kladogramm: Eine hierarchische Klassifikation von Taxa, die als Baum dargestellt wird. Kladogramme sind formal unabhängig von der Evolutionstheorie, werden in der Praxis jedoch meist als Phylogenien interpretiert. abgeleitetes Merkmal: Siehe Apomorphie. kleinste Quadrate: Ein phylogenetisches Distanzmatrizen-Kriterium. Der beste Baum ist derjenige mit der kleinsten quadrierten Differenz zwischen den beobachteten paarweisen Distanzen und den Distanzen, die aus dem abgeleiteten Baum berechnet werden. Er hat eine starke statistische Begründung, da er auf der gemeinsamen linearen Methode der kleinsten Quadrate basiert. Die Methode der kleinsten Quadrate ist durch den Gauss-Markov-Satz garantiert, bei mehr einbezogenen Daten auf die richtige Antwort zu konvergieren, wenn ein angemessener Distanzmetriken verwendet wird, d.h. die Methode der kleinsten Quadrate ist statistisch konsistent. Gewichtete Versionen korrigieren für zufällige Variabilität und Verzerrung aufgrund längerer Astlängen. Maximum-Likelihood: Ein kladistisches Kriterium zur Ableitung von Bäumen mit Merkmalskonflikt. Der beste Baum und das evolutionäre Modell maximieren die Wahrscheinlichkeit der beobachteten Daten. Maximum-Likelihood hat eine starke statistische Grundlage. Bei einem korrekten Modell des evolutionären Wandels ist es garantiert statistisch konsistent, d.h. es wird auf den richtigen Baum konvergieren, wenn mehr Daten hinzugefügt werden. Maximum-Likelihood performs in der Regel am besten aller Methoden in Simulationen, ist aber sehr rechenintensiv. Im Gegensatz zur Parsimonie stützt es sich explizit auf ein spezifisches evolutionäres Modell. Minimum-Evolution: Ein phylogenetisches Distanzmatrizen-Kriterium. Der beste Baum ist derjenige, in dem die Summe der Astlängen am kleinsten ist. Neighbor-Joining: Ein Distanzmatrizen-Algorithmus zur Ableitung von Bäumen. Es ist eine Näherung an die Methoden der kleinsten Quadrate und der Minimum-Evolution. Knoten: Ein Punkt in einer Phylogenie, an dem sich Äste treffen oder enden. Knoten an der Spitze oder dem Ende eines Asts repräsentieren Taxa. In wurzelten Bäumen repräsentieren innere Knoten gemeinsame Vorfahren. Parsimonie: Ein phylogenetisches Kriterium zur Ableitung von Bäumen mit Merkmalskonflikt. Die Parsimonie verlangt, dass der beste Baum derjenige mit dem geringsten Merkmalskonflikt ist. Es ist bekannt, dass es in bestimmten Fällen die falsche Phylogenie erzeugt, z.B. wenn die Evolutionsraten hoch sind oder bestimmte Äste lang sind. Phenetik: Manchmal auch als numerische Taxonomie bekannt, klassifizieren und gruppieren phenetische Methoden Organismen basierend auf der Gesamthähnlichkeit, in der Regel ohne explizite Bezugnahme auf ihre phylogenetischen Beziehungen. Phylogenie: Ein verzweigtes, baumartiges Diagramm, das genealogische Beziehungen zwischen Taxa darstellt. Wurzelte Phylogenien spezifizieren gemeinsame Vorfahren und haben eine Zeitachse. Plesiomorphie: Ein primitives Merkmal, das mit den Vorfahren einer Gruppe von Organismen geteilt wird. Da es mehr als nur der betrachteten Gruppe gemeinsam ist, ist eine Plesiomorphie nicht gruppenbildend. primitives Merkmal: Siehe Plesiomorphie. Wurzel: Ein gemeinsamer Vorfahre aller Taxa in einer Phylogenie. Chronologisch ist die Wurzel der älteste Knoten. Synapomorphie: Ein abgeleitetes Merkmal, das zwischen zwei Gruppen von Organismen geteilt wird. UPGMA: Ein auf Distanzmatrizen basierendes Clustering-Verfahren zum Konstruieren von Bäumen. Selten verwendet, ist es sehr schnell, geht aber von konstanten Evolutionsraten im gesamten Baum aus (eine Eigenschaft, die Ultrametrisch genannt wird). |
Kladistische Methoden werden häufig mit „phänetischen" Methoden kontrastiert. Phänetische Methoden gruppieren und klassifizieren Arten basierend auf der Anzahl der identischen Merkmale, die sie gemeinsam haben, das heißt, basierend auf der allgemeinen Ähnlichkeit. Solche Methoden können bei Organismen wie Delfinen und Thunfischen in Schwierigkeiten geraten, die viele oberflächliche Ähnlichkeiten aufweisen. Diese Organismen sind jedoch nicht eng miteinander verwandt und sollten nicht zusammen klassifiziert werden, wenn man erwartet, dass die Klassifikation die Phylogenie widerspiegelt.
Im Gegensatz dazu gruppieren cladistikbasierte Phylogenien Taxa in verschachtelten Hierarchien, und sie werden ausschließlich anhand geteilter abgeleiteter Merkmale von Organismen bestimmt, nicht geteilter primärer Merkmale (Brooks 1991, S. 35-36; Kitching et al. 1998, Kap. 1; Maddison und Maddison 1992, S. 49). Im technischen phylogenetischen Jargon werden primäre Merkmale als Plesiomorphien und abgeleitete Merkmale als Apomorphien bezeichnet. In der Kladistik werden verwandte Arten zusammengefasst, weil sie abgeleitete Merkmale (d. h. Apomorphien) teilen, die in einem gemeinsamen Vorfahren der Gruppe entstanden sind, aber nicht in anderen, früheren Vorfahren der Gruppe vorhanden waren. Diese geteilten, abgeleiteten Merkmale werden als Synapomorphien bezeichnet. Primär und abgeleitet sind daher relative Begriffe, die von der spezifischen Gruppe abhängen, die betrachtet wird. Zum Beispiel sind Rückgrate primäre Merkmale der Wirbeltiere, während Haare ein abgeleitetes Merkmal sind, das spezifisch für Säugetiere unter den Wirbeltieren gilt. Wenn jedoch nur Säugetiere betrachtet werden, sind Haare primär, während ein opponierbarer Daumen abgeleitet ist.
In real-life phylogenetic analyses, shared derived characters may be in conflict with other derived characters. Thus, objective methods are required for resolving this character conflict (Kitching et al. 1998, Ch. 1; Maddison and Maddison 1992, p. 49). For instance, wings are a derived character of birds and of bats. Based upon this character alone, the cladistic method would group bats and birds together, which is how the author of Deuteronomy grouped them in the Biblical quote above. However, other shared derived characters indicate that bats should be grouped with wingless mammals, and that birds should be grouped with wingless dinosaurs.
In den letzten 40 Jahren wurden mehrere algorithmische Methoden entwickelt, um solche Fälle von Merkmalskonflikten aufzulösen und korrekte phylogenetische Bäume zu rekonstruieren (Felsenstein 2004, Kap. 10). Die folgenden Abschnitte skizzieren einige der erfolgreichsten dieser Methoden. Jede Methode versucht, eine Phylogenie aus vorhandenen Daten abzuleiten, und jede hat ihre jeweiligen Stärken und Schwächen. Jahre der empirischen Tests und Simulationen haben gezeigt, dass diese verschiedenen Algorithmen, jeder mit sehr unterschiedlichen zugrundeliegenden Annahmen, im Allgemeinen auf Bäume konvergieren, die statistisch betrachtet hochgradig ähnlich sind (Li 1997, Kap. 5 und 6; Nei und Kumar 2000, Kap. 6, 7 und 8).
Maximum Parsimony
Eine der ältesten, grundlegendsten und am häufigsten verwendeten Methoden zur Charakterauflösung ist das Kriterium der maximalen Parsimonie (MP) (Edwards und Cavalli-Sforza 1963; Kitching et al. 1998). Das Parsimoniekriterium schreibt vor, dass der beste Baum, der die Daten beschreibt, derjenige ist, der die Menge an Charakterkonflikten minimiert. Betrachten Sie beispielsweise einen Datensatz, der 10 geteilte abgeleitete Charaktere enthält, die Fledermäuse mit Affen (anstatt mit Vögeln) und mit einem Charakter, der Fledermäuse mit Vögeln (anstatt mit Affen) gruppiert. Nach dem Parsimoniekriterium sollte der Baum, der die erste Gruppierung ergibt, bevorzugt werden.
Derzeit ist die Parsimonie die Methode der Wahl zur Rekonstruktion morphologischer Bäume (Kitching et al. 1998). Sie ist rechnerisch sehr schnell und kann robust gegenüber Unterschieden in den Evolutionsraten zwischen Merkmalen sein. Allerdings findet die maximale Parsimonie die korrekte Phylogenie nur dann konsistent, wenn wir einen niedrigen Charakterkonflikt oder einen parsimonischen Ablauf der Evolution erwarten (Felsenstein 2004, Kap. 9; Kitching et al. 1998, S. 17). Wenn die Evolutionsraten langsam sind und die Äste kurz, wird der Charakterkonflikt niedrig sein und die Parsimonie funktioniert gut (Felsenstein 2004, Kap. 9; Felsenstein 1981a; Li 1997, S. 128). Wenn der Charakterkonflikt in der Realität moderat oder hoch ist, ist es sehr unwahrscheinlich, dass der wahre Baum den geringsten Charakterkonflikt aufweist. Wenn die Evolutionsraten hoch sind, oder wenn einige Äste sehr lang sind, oder wenn die Anzahl der möglichen Merkmalszustände begrenzt ist, kann der Charakterkonflikt häufig sein. Dies ist oft bei Nukleotidsequenzen der Fall, die nur vier mögliche Merkmalszustände haben (A, C, T oder G). In Fällen wie diesen können andere phylogenetische Methoden genauer sein als die Parsimonie.
Maximum-Likelihood
Ein weiteres häufig verwendetes phylogenetisches Kriterium ist Maximum Likelihood (ML), eine effektive und robuste statistische Technik, die heute in allen wissenschaftlichen Bereichen eingesetzt wird (Edwards und Cavalli-Sforza 1964; Felsenstein 1981b; Fisher 1912). Viele bekannte statistische Schätzer sind tatsächlich Maximum-Likelihood-Schätzer. Zum Beispiel sind der übliche Stichprobenmittelwert als Schätzung des Mittelwerts einer Gauß-Verteilung und die kleinsten-Quadrate-Anpassung einer Linie an einen Satz von Punkten beide Maximum-Likelihood-Schätzer. Mit ML kann man Evolutionsraten direkt aus den Daten ableiten und den Baum bestimmen, der diese Daten unter Berücksichtigung der abgeleiteten Raten am besten beschreibt. Mit anderen Worten, ML findet den Baum und die evolutionären Parameter, die die beobachteten Daten mit der höchsten Wahrscheinlichkeit erzeugen. Im Gegensatz zur Parsimonie findet ML Bäume mit der erwarteten Menge an Charakterkonflikten, gegeben die aus den Daten abgeleiteten Evolutionsraten, selbst wenn diese Raten hoch sind. ML ist ein rechenintensives Verfahren, das sehr zeitaufwändig sein kann.
Entfernungsmethoden
Aufgrund ihrer Rechengeschwindigkeit gehören Distanzmatrix-Methoden zu den beliebtesten Methoden zur Inferenz von Phylogenien (Nei und Kumar 2000, Kap. 6). Alle Distanzmethoden transformieren Merkmalsdaten in eine Matrix von paarweisen Distanzen, wobei für jedes mögliche Paar der untersuchten Taxa eine Distanz berechnet wird. Distanzmatrix-Methoden sind nicht cladistisch, da Informationen über abgeleitete und primitive Merkmale während dieser Transformation verloren gehen. Distanzmethoden nähern sich der phylogenetischen Inferenz streng als statistisches Problem an und werden fast ausschließlich mit molekularen Daten verwendet. Obwohl sie nicht cladistisch sind, können Distanzmethoden als Approximationen cladistischer Methoden betrachtet werden, und einige dieser Methoden sind mathematisch garantiert, dass sie mit zunehmendem Datenumfang auf den korrekten Baum konvergieren.
Die einfachste Distanzmetrik ist lediglich die Anzahl der Charakterunterschiede zwischen zwei Taxa, wie beispielsweise die Anzahl der Nukleotidunterschiede zwischen zwei DNA-Sequenzen. Es gibt viele andere Möglichkeiten, molekulare Sequenzdistanzen zu berechnen, und die meisten versuchen, die Möglichkeit mehrfacher Änderungen an einer einzelnen Stelle während der Evolution zu korrigieren. Methoden zur Berechnung von Distanzen zwischen Sequenzen werden meist nach ihren Entwicklern benannt, wie Kimuras Zwei-Parameter-Modell (K2P), Jukes-Cantor (JC), Tamura-Nei (TN), Hasegawa, Kishino und Yano (HKY) sowie Felsenstein 1984 (F84). Weitere wichtige Distanzmetriken sind General Time Reversible (GTR) und LogDet (Felsenstein 2004, S. Kap. 11 und 13; Nei und Kumar 2000, Kap. 2 und 3; Li 1997, Kap. 3 und 4).
Sobald eine Distanzmatrix für die betrachteten Taxa vorliegt, können verschiedene auf Distanzen basierende Kriterien und Algorithmen verwendet werden, um den phylogenetischen Baum aus den Daten abzuschätzen (Felsenstein 2004, Kap. 11; Li 1997, Kap. 5). Das Minimum-Evolution (ME)-Kriterium findet den Baum, in dem die Summe aller Astlängen am kleinsten ist. Die Kriterien gewichtetes und ungewichtetes Kleinste-Quadrate berechnen die Diskrepanz zwischen den beobachteten paarweisen Distanzen und den paarweisen Distanzen, die aus den Astlängen des geschätzten Baums berechnet wurden. Kleinste-Quadrate-Verfahren finden dann den Baum, der das Quadrat dieser Diskrepanz minimiert. Kleinste-Quadrate-Methoden gehören zu den statistisch am besten begründeten und werden mit zunehmender Einbeziehung von Daten in die Analyse auf den korrekten Baum konvergieren (gegeben eine mathematisch angemessene Distanzmetrik). Der Neighbor-Joining (NJ)-Algorithmus ist extrem schnell und stellt eine Näherung der Kleinste-Quadrate- und Minimum-Evolution-Methoden dar. Wenn die Distanzmatrix eine exakte Beschreibung des wahren Baums ist, garantiert Neighbor-Joining die Rekonstruktion des korrekten Baums. Der UPGMA-Clustering-Algorithmus (ein verwirrender Akronym) ist ebenfalls extrem schnell, basiert jedoch auf der unwahrscheinlichen Annahme, dass Evolutionsraten in allen Linien gleich sind. UPGMA wird heute selten verwendet, außer als didaktisches Werkzeug.
Statistische Unterstützung für Phylogenien
Eine Phylogenie ist die beste Annäherung an den korrekten, historischen Stammbaum unter Verwendung einer gegebenen phylogenetischen Methode. Manche phylogenetischen Analysen werden stark durch die Daten gestützt, andere nur schwach, und verschiedene Teile eines Stammbaums können unterschiedlich stark unterstützt sein. Beim Vergleich zweier unabhängig bestimmter Phylogenien muss man berücksichtigen, welche statistische Unterstützung jeder Verzweigung der Phylogenien zugewiesen wurde. Wie bei allen wissenschaftlichen Analysen können sich die Details eines phylogenetischen Stammbaums ändern, wenn neue Informationen und Daten einfließen (Maddison und Maddison 1992, S. 112-123; Li 1997, S. 36-146; Felsenstein 1985; Futuyma 1998, S. 99; Hillis und Bull 1993; Huelsenbeck et al. 2001; Swofford et al. 1996, S. 504-509).
Bootstrapping ist die populärste statistische Methode zur Bewertung der Zuverlässigkeit der Äste in einem phylogenetischen Baum (Felsenstein 1985). Bootstrapping ist eine statistische Technik zur empirischen Schätzung der Variabilität eines Parameters (Efron 1979; Efron und Gong 1983). In einer Bootstrap-Analyse wird ein fiktiver Datensatz erstellt, indem Daten aus dem echten Datensatz zufällig entnommen werden, bis ein neuer Datensatz der gleichen Größe erstellt wurde. Dieser Vorgang wird wiederholt (hundert- oder tausendfach) durchgeführt, und der Parameter von Interesse wird aus jedem fiktiven Datensatz geschätzt. Die Variabilität dieser bootstrappten Schätzungen ist selbst eine Schätzung der Variabilität des Parameters von Interesse.
In der Phylogenetik wird aus jedem bootstrapten Datensatz eine neue Phylogenie abgeleitet (Felsenstein 1985). Diese bootstrapten Phylogenien werden wahrscheinlich unterschiedliche Topologien aufweisen. Aus diesen unterschiedlichen bootstrapten Bäumen kann die Variabilität des abgeleiteten Baumes geschätzt werden. Die Teile der bootstrapten Bäume, die übereinstimmen, werden einem hohen Vertrauen zugewiesen, während die Teile, die stark variieren, einem niedrigen Vertrauen zugeordnet werden. Bäume, die aus zufälligen Daten konstruiert wurden, führen beim Bootstrapping nicht zu Bäumen oder Ästen mit hohem Vertrauen. Somit bietet das Bootstrapping einen Weg, zu testen, ob ein phylogenetischer Baum echt ist.
Findet phylogenetische Inferenz die richtigen Bäume?
Um ihre Gültigkeit bei der zuverlässigen Bestimmung von Phylogenien zu etablieren, wurden phylogenetische Methoden empirisch in Fällen getestet, in denen die wahre Phylogenie mit Sicherheit bekannt ist, da die wahre Phylogenie direkt beobachtet wurde.
-
Der Bakteriophage T7 wurde in Anwesenheit eines Mutagens sequentiell vermehrt und aufgeteilt, wobei jede Linie verfolgt wurde. Von den 135.135 möglichen phylogenetischen Bäumen wurde der wahre Baum durch phylogenetische Methoden in einer Blindanalyse korrekt bestimmt. Fünf verschiedene phylogenetische Methoden wurden unabhängig voneinander verwendet, und jede wählte den korrekten Baum (Hillis et al.1992 ).
-
In einer weiteren Studie wurden 24 Mäusestämme verwendet, bei denen die genealogischen Beziehungen bekannt waren. Die cladistische Analyse reproduzierte die bekannte Phylogenie der 24 Stämme fast perfekt (Atchely und Fitch 1991).
-
Bush et al. verwendeten die phylogenetische Analyse, um retrospektiv in 83 % der Fälle den korrekten evolutionären Baum des menschlichen Influenza-A-Virus für die Grippejahre von 1983 bis 1994 vorherzusagen.
-
Im Jahr 1998 verwendeten Forscher 111 moderne HIV-1 (AIDS-Virus)-Sequenzen in einer phylogenetischen Analyse, um die Nukleotidsequenz des viralen Vorfahrens vorherzusagen, von dem sie alle abstammten. Die vorhergesagte Vorfahrensequenz stimmte mit hoher statistischer Wahrscheinlichkeit eng mit einer tatsächlichen HIV-Vorfahrensequenz überein, die in einer 1959 im belgischen Kongo gesammelten und archivierten HIV-1-seropositiven Plasma-Probe gefunden wurde (Zhu et al.1998 ).
-
In den letzten zehn Jahren haben phylogenetische Analysen eine bedeutende Rolle bei erfolgreichen Verurteilungen in mehreren Strafgerichtsverfahren gespielt (Albert et al. 1994; Arnold et al. 1995; Birch et al. 2000; Blanchard et al. 1998; Goujon et al. 2000; Holmes et al. 1993; Machuca et al. 2001; Ou et al. 1992; Veenstra et al. 1995; Vogel 1997; Yirrell et al. 1997), und phylogenetische Rekonstruktionen werden nun als Sachverständigenzeugnis in den Vereinigten Staaten zugelassen (97-KK- 2220 State of Louisiana v. Richard J. Schmidt [PDF]). Der rechtliche Test in den USA für die Zulässigkeit von Sachverständigenzeugnissen sind die Daubert-Richtlinien (Fall des US-obersten Gerichtshofs Daubert v. Merrell Dow Pharmaceuticals, Inc., 509 U.S. 579, 587-89, 113 S. Ct. 2786, 2794, 125 L. Ed. 2d 469, 1993). Die Daubert-Richtlinien besagen, dass ein Gerichtshof bei der Bestimmung, ob die zugrundeliegende Argumentation oder Methodik des Zeugnisses wissenschaftlich gültig ist, fünf Faktoren berücksichtigen sollte: (1) ob die betreffende Theorie oder Technik getestet werden kann und getestet wurde; (2) ob sie einer Peer-Review und Veröffentlichung unterzogen wurde; (3) ihre bekannte oder potenzielle Fehlerrate; (4) das Bestehen und die Aufrechterhaltung von Standards, die ihre Anwendung kontrollieren; und (5) ob sie innerhalb der relevanten wissenschaftlichen Gemeinschaft weite Akzeptanz gefunden hat (fast wörtlich zitiert). Die phylogenetische Analyse hat diese rechtlichen Anforderungen offiziell erfüllt.
Einschränkungen bei der phylogenetischen Inferenz
Wie bei jeder wissenschaftlichen Untersuchungsmethode müssen bestimmte Bedingungen erfüllt sein, damit die Ergebnisse verlässlich sind. Eine gemeinsame Prämisse vieler molekularer phylogenetischer Methoden ist, dass Gene durch vertikale, linienhafte Vererbung, d. h. von Elternteil zu Nachkommen, übertragen werden. Wird diese Prämisse verletzt, werden Genbäume die Phylogenie eines Organismus oder einer Art nicht widerspiegeln. Diese Annahme wird bei Fällen horizontalen Transfers verletzt, z. B. bei der Transformation eines Bakteriums durch ein DNA-Plasmid oder bei der Insertion von Retroviren in das Genom eines Wirts. Während der frühen Evolution des Lebens, vor dem Aufkommen mehrzelliger Organismen, war horizontales Transfer wahrscheinlich sehr häufig (wie es heute in der beobachteten Evolution von Bakterien und anderen einzelligen Organismen der Fall ist). Daher ist fraglich, ob molekular-phylogenetische Methoden auch im Prinzip auf die Aufklärung der evolutionären Muster vieler Mikroben, einschließlich der frühen Evolution in der Nähe des jüngsten gemeinsamen Vorfahren aller lebenden Organismen (Doolittle 1999; Doolittle 2000; Woese 1998), anwendbar sind.
Die folgende Liste gibt einige der wichtigsten Einschränkungen wieder, die Wissenschaftler bei der Interpretation der Ergebnisse einer phylogenetischen Analyse (Swofford 1996, S. 493-509) im Hinterkopf behalten müssen. Im Allgemeinen wird der Beitrag jeder dieser Bedenken durch die Aufnahme weiterer unabhängiger Merkmale in die phylogenetische Analyse „ausgeglichen", wie z. B. mehr Gene und längere Sequenzen.
-
Korrelierte Merkmale: Jedes in der Analyse verwendete Merkmal sollte genetisch unabhängig sein. Merkmale, die stark funktionell korreliert sind, sind besser als ein einziges Merkmal zu betrachten. Es gibt statistische Tests, die helfen können, unbeachtete Merkmalskorrelationen zu kontrollieren, wie z. B. den Block-Bootstrap und den Jackknife.
-
Echte strukturelle Konvergenz: Strukturen, die eine konvergente Evolution durchlaufen haben, können künstlich zu falschen Baumtopologien führen. Das Einbeziehen weiterer Merkmale in die Analyse hilft ebenfalls, konvergente Effekte zu überwinden.
-
Merkmalsrückkehr: Merkmale, die in einen Vorfahrzustand zurückkehren, stellen eine ähnliche Herausforderung wie die Konvergenz dar. Da DNA und RNA nur vier verschiedene Merkmalszustände aufweisen, sind sie während der Evolution besonders anfällig für Rückkehrvorgänge.
-
Verlorene Merkmale: Abstammungslinien, die Merkmale verloren haben (wie Wale und ihre Hintergliedmaßen), können ebenfalls kladistische Probleme verursachen. Oft ist es am besten, wenn eine kladistische Analyse stark darauf hindeutet, dass ein bestimmtes Merkmal während der Evolution verloren gegangen ist, dieses Merkmal in Analysen höherer Auflösung dieser Abstammungslinie wegzulassen.
-
Fehlende Merkmale: Unvollständige Fossilien sind problematisch, da sie wichtige Merkmale fehlen lassen können. Bessere Fossilien sind die Lösung.
-
Unerträgliche Anzahl möglicher phylogenetischer Bäume: aus rechnerischen Gründen ist dies eine der wichtigsten phylogenetischen Herausforderungen zu überwinden. Das Ziel einer phylogenetischen Rekonstruktion besteht darin, den besten Baum zu bestimmen, den die Daten unterstützen. Für eine Analyse von nur fünf Arten gibt es 15 mögliche Bäume. Für eine Analyse von 50 Arten gibt es über 1074 mögliche Bäume, die durchsucht werden müssen – was rechnerisch unmöglich ist. Dieses Problem ist nicht so schlimm, wie es zunächst klingt, da das Eingrenzen der Anzahl vernünftiger Bäume in vielen Fällen trivial sein kann (zum Beispiel durch Verwendung des Branch-and-Bound-Algorithmus). Es wurden mehrere Methoden entwickelt, um dieses Problem erfolgreich zu umgehen, und letztlich sind leistungsfähigere Computer besser.
-
Annahmen der Maximum Likelihood-Methode: Die Maximum Likelihood-Methode macht explizite Annahmen über das Muster der Nukleotidsubstitutionen basierend auf einem gegebenen Modell der Nukleotid-Evolution. Diese Annahmen basieren auf einer soliden statistischen Grundlage; jedoch muss die Gültigkeit der Modelle bei der Bewertung der Ergebnisse berücksichtigt werden.
-
Lange Ast-Anziehung: Abstammungslinien, die vor relativ langer Zeit divergiert sind, neigen unter geeigneten Bedingungen dazu, sich in einer phylogenetischen Rekonstruktion zu "bündeln". Die mathematischen Gründe sind etwas kompliziert, aber die Verwendung langsamer evolvierender Gene (oder Genregionen) hilft, das Problem zu überwinden.
-
Ratenvariation zwischen Abstammungslinien: Raten der Nukleotidsubstitution können zwischen Abstammungslinien unterschiedlich sein; dies kann zur langen Ast-Anziehung beitragen und zu falschen Baumtopologien führen. Allerdings sind die Maximum-Likelihood- und Kleinste-Quadrate-Methoden hier besonders nützlich.
-
Ratenvariation innerhalb eines einzelnen Gens: Raten der Nukleotidsubstitution können entlang der Länge eines einzelnen Gens variieren – dies verschärft ebenfalls die lange Ast-Anziehung.
-
Genbäume sind nicht äquivalent zu Artbäumen: Aus der einfachen Mendelschen Genetik wissen wir, dass Gene einzeln segregieren und dass einzelne Gene im Laufe der Zeit nicht unbedingt der Organismengenealogie folgen (Avise und Wollenberg 1997; Fitch 1970; Hudson 1992; Nichols 2001; Wu 1991). Ein offensichtliches Beispiel ist die Tatsache, dass Sie zwar braune Augen haben können, Ihr Kind aber die Gene für blaue Augen haben kann – das bedeutet jedoch nicht, dass Ihr Kind nicht Ihr Nachkomme ist, oder dass Ihre braunaugigen Kinder Ihnen näher verwandt sind als Ihre blauaugigen Kinder. Das Einbeziehen mehrerer Gene in die Analyse ist eine Lösung für dieses Rätsel. Basierend auf einfachen genetischen Berechnungen ist eine Analyse von mehr als fünf Genen in der Regel notwendig, um eine Artphylogenie genau zu rekonstruieren (Wu 1991).
Für weitere Informationen zur Kladistik können Sie auf eine der zahlreichen hervorragenden Online-Ressourcen zur Kladistik zurückgreifen, wie z. B. die SASB-Einführung in die Phylogenetik, das Phylogenie-Labor der Integrativen Biologie der UC Berkeley Phylogenetics Lab oder Dianas Lipscombs hervorragende Grundlagen der kladistischen Analyse, die im Adobe Acrobat PDF-Format heruntergeladen werden können. Eine gute, knappe Beschreibung für Laien findet sich im Journal of Avocational Paleontology. Schließlich können Sie Charles Darwins Erklärung in The Origin of Species über das "Lebensbaum" lesen, wo das Konzept des phylogenetischen Baums erstmals eingeführt wurde.
|
Zurück |
Weiter |
Referenzen
Albert, J., Wahlberg, J., Leitner, T., Escanilla, D. und Uhlen, M. (1994) "Analyse eines Vergewaltigungsfalls durch direkte Sequenzierung der Gene pol und gag des humanen Immundefizienzvirus Typ 1." J Virol 68: 5918-24. [PubMed]
Arnold, C., Balfe, P. und Clewley, J. P. (1995) „Sequenzabstände zwischen env-Genen von HIV-1 bei Individuen, die von derselben Quelle infiziert wurden: Implikationen für die Untersuchung möglicher Übertragungsereignisse." Virology 211: 198-203. [PubMed]
Atchely, W. R., und Fitch, W. M. (1991) „Gene trees and the origins of inbred strains of mice." Science 254: 554-558. [PubMed]
Avise, J. C., und Wollenberg, K. (1997) „Phylogenie und der Ursprung von Arten." PNAS 94: 7748-7755. http://www.pnas.org/cgi/ content/full/94/15/7748
Birch, C. J., McCaw, R. F., Bulach, D. M., Revill, P. A., Carter, J. T., Tomnay, J., Hatch, B., Middleton, T. V., Chibo, D., Catton, M. G., Pankhurst, J. L., Breschkin, A. M., Locarnini, S. A. und Bowden, D. S. (2000) „Molekulare Analyse von Humanimmunodefizienz-Virus-Stämmen, die mit einem Fall der strafrechtlichen Übertragung des Virus verbunden sind." J Infect Dis 182: 941-4. http://jid.oxfordjournals.org/content/182/3/941.long
Blanchard, A., Ferris, S., Chamaret, S., Guetard, D. und Montagnier, L. (1998) "Molekulare Belege für die nosokomiale Übertragung des humanen Immundefizienz-Virus von einem Chirurgen auf einen seiner Patienten." J Virol 72: 4537-40. http://jvi.asm.org/cgi/content/full/72/5/4537?view=full&pmid=9557756
Brooks, D. R., und McLennan, D. A. (1991) Phylogenie, Ökologie und Verhalten. Chicago: University of Chicago Press.
Bush, R. M., C. A. Bender, et al. (1999) "Vorhersage der Evolution von Influenza A beim Menschen." Science 286: 1921-1925. [PubMed]
Doolittle, W. F. (1999) „Phylogenetische Klassifikation und der universelle Baum." Science 284: 2124. [PubMed]
Doolittle, W. F. (2000) „Die Natur des universellen Vorfahren und die Evolution des Proteoms." Current Opinion in Structural Biology 10: 355-358. [PubMed]
Edwards, A. W. F. und Cavalli-Sforza, L. L. (1963) „Die Rekonstruktion der Evolution." Annals of Human Genetics 27: 105-106.
Efron, B. (1979) "Bootstrap-Methoden: Ein weiterer Blick auf das Jackknife." Annals of Statistics 7: 1-26.
Efron, B. und Gong, G. (1983) „Ein gemütlicher Blick auf das Bootstrap, das Jackknife und die Kreuzvalidierung." American Statistician 37: 36-48.
Edwards, A. W. F. und Cavalli-Sforza, L. L. (1964) "Rekonstruktion phylogenetischer Bäume." in Phenetische und phylogenetische Klassifikation. Hrsg. Heywood, V. H. und McNeill. London: Systematics Assoc. Pub No. 6.
Felsenstein, J. (1981) "Ein Likelihood-Ansatz zur Charaktergewichtung und was er über Parsimonie und Kompatibilität aussagt." Biol J Linn Soc Lond 16: 183-196.
Felsenstein, J. (1981) „Evolutionäre Bäume aus DNA-Sequenzen: Ein Maximum-Likelihood-Ansatz." J Mol Evol 17: 368-376. [PubMed]
Felsenstein, J. (1985) "Vertrauensgrenzen für Phylogenien: Ein Ansatz unter Verwendung des Bootstraps." Evolution 39: 783-791.
Felsenstein, J. (2004) Phylogenien erschließen. Sunderland, MA: Sinauer Associates.
Fisher, R. A. (1912) „Über ein absolutes Kriterium zur Anpassung von Häufigkeitskurven." Messenger of Mathematics 41: 155-160.
Fitch, W. M. (1970) „Unterscheidung homologer von analogen Proteinen." Syst. Zool. 28: 132-163.
Futuyma, D. (1998) Evolutionary Biology. Dritte Auflage. Sunderland, MA: Sinauer Associates.
Goujon, C. P., Schneider, V. M., Grofti, J., Montigny, J., Jeantils, V., Astagneau, P., Rozenbaum, W., Lot, F., Frocrain-Herchkovitch, C., Delphin, N., Le Gal, F., Nicolas, J. C., Milinkovitch, M. C. und Deny, P. (2000) „Phylogenetische Analysen deuten auf eine atypische Übertragung des Humanen Immundefizienz-Virus Typ 1 von der Pflegekraft an den Patienten hin." J Virol 74: 2525-32. http://jvi.asm.org/cgi/content/full/74/6/2525?view=full&pmid=10684266
Hennig, W. (1966) Phylogenetische Systematik. (Englische Übersetzung). Urbana: University of Illinois Press.
Hillis, D. M., und Bull, J. J. (1993) "Eine empirische Prüfung des Bootstrapping als Methode zur Beurteilung des Vertrauens in phylogenetische Analysen." Syst. Biol. 42: 182-192.
Hillis, D. M., J. J. Bull, et al. (1992) "Experimentelle Phylogenetik: Generierung einer bekannten Phylogenie." Science 255: 589-592. [PubMed]
Holmes, E. C., Zhang, L. Q., Simmonds, P., Rogers, A. S. und Brown, A. J. (1993) „Molekulare Untersuchung der Infektion mit dem menschlichen Immunschwächevirus (HIV) bei einem Patienten eines HIV-infizierten Chirurgen." J Infect Dis 167: 1411-4. [PubMed]
Hudson, R. R. (1992) „Gene trees, species trees and the segregation of ancestral alleles." Genetics 131: 509-513. [PubMed]
Huelsenbeck, J. P., Ronquist, F., Nielsen, R., und Bollback, J. P. (2001) „Bayesianische Inferenz der Phylogenie und ihre Auswirkungen auf die Evolutionsbiologie." Science 294: 2310-2314. [PubMed]
Kitching, I. J., Forey, P. L., Humphries, C. J., und Williams, D. M. (1998) Cladistics: Die Theorie und Praxis der Parsimonie-Analyse. Zweite Auflage. Veröffentlichung der Systematics Association Nr. 11. Oxford: Oxford University Press.
Li, W.-H. (1997) Molekulare Evolution. Sunderland, MA: Sinauer Associates.
Machuca, R., Jorgensen, L. B., Theilade, P. und Nielsen, C. (2001) „Molekulare Untersuchung der Übertragung des Humanen Immundefizienz-Virus Typ 1 in einem Straftatfall." Clin Diagn Lab Immunol 8: 884-90. [PubMed]
Maddison, W. P., und Maddison, D. R. (1992) MacClade. Sunderland, MA: Sinauer Associates.
Nei, M. und Kumar, S. (2000) Molekulare Evolution und Phylogenetik. New York, NY: Oxford University Press.
Nichols, R. (2001) „Gene trees and species trees are not the same." Trends Ecol Evol. 16: 358-364. [PubMed]
Ou, C. Y., Ciesielski, C. A., Myers, G., Bandea, C. I., Luo, C. C., Korber, B. T., Mullins, J. I., Schochetman, G., Berkelman, R. L., Economou, A. N. und et al. (1992) „Molekulare Epidemiologie der HIV-Übertragung in einer Zahnarztpraxis." Science 256: 1165-71. [PubMed]
Swofford, D. L., Olsen, G. J., Waddell, P. J., und Hillis, D. M. (1996) „Phylogenetische Inferenz." In Molekulare Systematik, S. 407-514. Hillis, D. M., Moritiz, C. und Mable, B. K. (Hrsg.), Sunderland, Massachusetts: Sinauer.
Veenstra, J., Schuurman, R., Cornelissen, M., van't Wout, A. B., Boucher, C. A., Schuitemaker, H., Goudsmit, J. und Coutinho, R. A. (1995) "Übertragung von zidovudinresistenten Varianten des humanen Immundefizienzvirus Typ 1 nach gezielter Injektion von Blut eines AIDS-Patienten: Eigenschaften und natürliche Geschichte des Virus." Clin Infect Dis 21: 556-60. [PubMed]
Vogel, G. (1997) "Phylogenetische Analyse: Ihr Tag vor Gericht." Science 275: 1559-60. [PubMed]
Woese, C. (1998) „Der universelle Vorfahr." PNAS 95: 6854-6859. http://www.pnas.org/cgi/ content/full/95/12/6854
Wu, C. I. (1991) "Schlussfolgerungen zur Phylogenie von Arten im Zusammenhang mit der Segregation alter Polymorphismen." Genetics 127: 429-435. [PubMed]
Yirrell, D. L., Robertson, P., Goldberg, D. J., McMenamin, J., Cameron, S. und Leigh Brown, A. J. (1997) „Molekulare Untersuchung des HIV-Ausbruchs in einem schottischen Gefängnis." Bmj 314: 1446-50. http://bmj.com/cgi/content/full/314/7092/1446?view=full&pmid=9167560
Zhu, T., B. Korber, et al. (1998) „Eine afrikanische HIV-1-Sequenz aus dem Jahr 1959 und Implikationen für den Ursprung der Epidemie." Nature 391: 594-597. [PubMed]