<--
Anterior
-->
Próximo

Introdução à filogenética

Introdução à Filogenética

A descendência de um ancestral comum implica um processo de ramificação e divergência, comum a qualquer processo genealógico. As genealogias podem ser ilustradas graficamente por diagramas semelhantes a árvores, e é por isso que os biólogos frequentemente se referem à genealogia das espécies como a "árvore da vida". Na teoria evolutiva, diagramas como estes são conhecidos como árvores filogenéticas ou filogenias. Uma das previsões mais importantes, poderosas e básicas da hipótese da descendência comum universal é a existência de uma árvore filogenética única, histórica e universal para as espécies que se reproduzem principalmente por mecanismos genéticos verticais (outro tipo de herança, transferência horizontal de genes, pode complicar as filogenias e até mesmo o conceito de espécie, veja Caveats abaixo). Um domínio adequado da filogenética é necessário para compreender as deduções macroevolutivas. O modelo consenso que os biólogos evolutivos utilizam para representar os ramos bem sustentados da árvore universal da vida, a que me referirei como a "árvore filogenética padrão". Figura 1 mostra um exemplo simplificado de alguns dos ramos mais familiares da árvore filogenética universal.

Na seção a seguir, há uma breve visão geral das árvores filogenéticas e de como os biologistas as determinam. Esta visão geral torna-se progressivamente mais técnica à medida que avança. O material até o título de parsimônia máxima é essencial para compreender o restante desta FAQ. A discussão filogenética restante é fornecida para completude e para permitir ao leitor interessado a oportunidade de aprofundar-se tanto quanto desejar.

[Figura 1: Uma Filogenia Consensual de Toda a Vida]
Figura 1. A Árvore Filogenética Consensual de Toda a Vida.

Árvores filogenéticas representam relações evolutivas

[Árvores para fins ilustrativos]
Figura 2: As partes de uma árvore filogenética. Os táxons nesta árvore são "humano", "rato" e "mosca" (todos os quais tiveram seus genomas completos sequenciados). Vários nós são indicados, como o nó do táxon "mosca" e um nó interno que representa o ancestral comum de ratos e humanos. A raiz é indicada à esquerda, representando o ancestral comum de todos os três táxons listados.

A filogenética é a disciplina científica dedicada a descrever e reconstruir os padrões de relações genéticas entre espécies e entre táxons superiores. As árvores filogenéticas são uma maneira conveniente de representar visualmente a história evolutiva da vida. Estes diagramas ilustram as relações inferidas entre os organismos e a ordem dos eventos de especiação que levaram dos ancestrais comuns anteriores aos seus descendentes diversificados.

Uma árvore filogenética possui várias partes, mostradas na Figura 2. Os nós representam unidades taxonômicas, como um organismo, uma espécie, uma população, um ancestral comum ou até mesmo um gênero inteiro ou outro grupo taxonômico superior. As ramificações conectam os nós de forma única e representam relações genéticas. O padrão específico de ramificação determina a topologia da árvore. As árvores escaladas possuem comprimentos de ramificação proporcionais a alguma propriedade biológica importante, como o número de mudanças de aminoácidos entre nós em uma filogenia de proteínas (veja a Figura 3). As árvores também podem ser enraizadas ou não enraizadas. As árvores enraizadas possuem um nó especial, conhecido como raiz, que representa um ancestral comum de todos os táxons mostrados na árvore. As árvores enraizadas são, portanto, direcionais, já que todos os táxons evoluíram a partir da raiz. As árvores não enraizadas ilustram apenas as relações, sem referência a ancestrais comuns.

[Árvores para fins ilustrativos]
Figura 3: Várias representações de uma árvore filogenética de 5 táxons. Cada uma dessas árvores representa os mesmos cinco táxons modernos: A, B, C, D e E. A árvore no canto superior esquerdo está enraizada e escalonada de acordo com a distância evolutiva. A raiz está à esquerda. Os táxons C e E sofreram ambas mudanças relativamente grandes desde a divergência da raiz, em contraste com os táxons B e D. A árvore no canto inferior esquerdo está enraizada e não escalonada. Aqui, os comprimentos dos ramos são indicadores relativos do tempo desde a divergência. A árvore à direita está escalonada, mas não enraizada. Nesta árvore, embora a raiz seja desconhecida, as relações entre os táxons são idênticas àquelas mostradas nas outras duas árvores.

Um equívoco comum é que algumas espécies modernas são ancestrais de outras espécies modernas. No entanto, todas as espécies modernas são encontradas nas pontas dos ramos da árvore, e uma espécie moderna é tão "evoluída" quanto qualquer outra. Ou seja, embora se pense que os mamíferos evoluíram de algo que se assemelhava aos répteis modernos, os répteis modernos são tão "velhos" evolutivamente quanto os mamíferos modernos (Brooks 1991, p.68; Futuyma 1998, p.113).

Métodos para determinar árvores filogenéticas: Cladística e filogenética numérica

De todas as aves limpas comerás.
Mas estas são as que não comerás:

A águia, e a ossifrage, e a ospray,
E a glede, e a cegonha, e a abutre segundo a sua espécie,
E todo o corvo segundo a sua espécie,
E a coruja, e a coruja noturna, e o cuco, e a falcão segundo a sua espécie,
A coruja pequena, e a coruja grande, e o cisne,
E o pelicano, e a águia gier, e o cormorão,
E o avestruz, e a garça segundo a sua espécie, e o lapwing,
e o morcego
.

Deuteronômio 14:11-18, KJV

Se as espécies modernas descendem de ancestrais de maneira semelhante a uma árvore, com ramificações, deve ser possível inferir a verdadeira árvore histórica que traça seus caminhos de descendência. Filogenias têm sido inferidas por biólogos desde que Darwin propôs, há mais de 140 anos, que a vida foi unida pela descendência comum. Metodologias algorítmicas rigorosas para inferir árvores filogenéticas vêm sendo utilizadas há mais de 50 anos.

Em 1950, o taxonomista Willi Hennig propôs um método para determinar árvores filogenéticas com base na morfologia, classificando organismos de acordo com seus caracteres derivados compartilhados, que são chamados de sinapomorfias (Hennig 1966). Este método, agora chamado de cladística, não pressupõe parentesco genealógico a priori, pois pode ser usado para classificar qualquer coisa em princípio, até mesmo coisas como livros, carros ou cadeiras que claramente não estão genealogicamente relacionadas no sentido biológico (Kitching et al. 1998, Cap. 1, p. 26; ). No entanto, usando argumentos evolutivos sólidos, Hennig justificou este método como a técnica de classificação mais adequada para estimar as relações evolutivas geradas pela descendência linear. De fato, o método cladístico de Hennig não é nada mais do que uma formalização dos métodos que biólogos sistemáticos vinham usando intuitivamente desde que Linnaeus escreveu Systema Naturae. Os biólogos de hoje constroem suas árvores filogenéticas com base no método de Hennig, e devido à cladística, essas árvores filogenéticas são reprodutíveis e independentemente testáveis (Brooks 1991, Cap. 2; Kitching et al. 1998).

Jargão Filogenético

apomorfia: Um caráter derivado de um grupo de organismos, não compartilhado com os ancestrais de um grupo de organismos. As apomorfias são exclusivas do grupo e, portanto, definidoras do grupo.

bootstrap: Um procedimento estatístico técnico para estimar a variabilidade de uma medição. Na filogenética, o bootstrap envolve a produção de um novo conjunto de dados pseudo por meio da extração aleatória de pontos de dados do conjunto de dados original. Para cada conjunto de dados pseudo, uma nova filogenia é inferida. Rodadas disso fornecem uma estimativa das regiões bem e mal suportadas da filogenia original.

caráter: Uma característica observável de um organismo útil para distingui-lo de outro. Por exemplo, um nucleotídeo em uma sequência de DNA, um aminoácido em uma sequência de proteína ou caracteres morfológicos como pelos, penas ou a presença ou ausência de certos ossos.

cladística: Uma classe de técnicas filogenéticas que constroem árvores (cladogramas) agrupando táxons em hierarquias aninhadas de acordo com caracteres derivados compartilhados (sinapomorfias). A cladística está intimamente associada ao critério de parsimônia.

cladograma: Uma classificação hierárquica de táxons representada como uma árvore. Formalmente, os cladogramas são independentes da teoria evolutiva, embora na prática sejam geralmente interpretados como filogenias.

caráter derivado: Veja apomorfia.

mínimos quadrados: Um critério de matriz de distância filogenética. A melhor árvore é aquela com a menor diferença quadrada entre as distâncias observadas em pares e as distâncias calculadas a partir da árvore inferida. Possui uma forte justificativa estatística, pois é baseada na técnica estatística comum de mínimos quadrados lineares. Os mínimos quadrados são garantidos pelo teorema de Gauss-Markov para convergir para a resposta correta à medida que mais dados são incluídos na análise se uma métrica de distância adequada for usada, ou seja, os mínimos quadrados são estatisticamente consistentes. Versões ponderadas corrigem a variabilidade aleatória e o viés devido a comprimentos de ramo mais longos.

máxima verossimilhança: Um critério cladístico para inferir árvores com conflito de caracteres. A melhor árvore e o modelo evolutivo maximizam a probabilidade dos dados observados. A máxima verossimilhança possui uma forte base estatística. Dado um modelo correto de mudança evolutiva, ela é garantida para ser estatisticamente consistente, ou seja, convergirá para a árvore correta à medida que mais dados são adicionados. A máxima verossimilhança geralmente apresenta o melhor desempenho de todos os métodos em simulações, mas é muito computacionalmente custosa. Diferentemente da parsimônia, ela depende explicitamente de um modelo evolutivo específico.

evolução mínima: Um critério de matriz de distância filogenética. A melhor árvore é aquela em que a soma dos comprimentos dos ramos é a menor.

junção de vizinhos: Um algoritmo de matriz de distância para inferir árvores. É uma aproximação dos métodos de mínimos quadrados e evolução mínima.

nó: Um ponto em uma filogenia onde os ramos se encontram ou terminam. Os nós na ponta ou no fim de um ramo representam táxons. Em árvores enraizadas, os nós internos representam ancestrais comuns.

parsimônia: Um critério filogenético para inferir árvores com conflito de caracteres. A parsimônia exige que a melhor árvore seja aquela com o menor conflito de caracteres. Sabe-se que ela produz a filogenia incorreta em certos casos, como quando as taxas evolutivas são altas ou certos ramos são longos.

fenética: Às vezes conhecida como taxonomia numérica, os métodos fenéticos classificam e agrupam organismos com base na similaridade geral, geralmente sem referência explícita às suas relações filogenéticas.

filogenia: Um diagrama ramificado, semelhante a uma árvore, que representa as relações genealógicas entre táxons. Filogenias enraizadas especificam ancestrais comuns e possuem um eixo temporal.

plesiomorfia: Um caráter primitivo, compartilhado com os ancestrais de um grupo de organismos. Como é comum a mais do que apenas o grupo em questão, uma plesiomorfia não é definidora do grupo.

caráter primitivo: Veja plesiomorfia.

raiz: Um ancestral comum de todos os táxons em uma filogenia. Cronologicamente, a raiz é o nó mais antigo.

sinapomorfia: Um caráter derivado que é compartilhado entre dois grupos de organismos.

UPGMA: Um método de agrupamento baseado em matriz de distância para construir árvores. Raramente usado, é muito rápido, mas assume taxas evolutivas constantes em toda a árvore (uma propriedade chamada ultrametricidade).

Os métodos cladísticos são frequentemente contrastados com os métodos "fenéticos". Os métodos fenéticos agrupam e classificam espécies com base no número de caracteres idênticos que compartilham, ou seja, com base na similaridade geral. Tais métodos podem encontrar dificuldades com organismos como golfinhos e atuns, que possuem muitas semelhanças superficiais. No entanto, esses organismos não estão estreitamente relacionados e não devem ser classificados juntos se se espera que a classificação reflita a filogenia.

Em contraste, as filogenias baseadas na cladística agrupam táxons em hierarquias aninhadas, e são determinadas usando apenas caracteres derivados compartilhados dos organismos, não caracteres primitivos compartilhados (Brooks 1991, pp. 35-36; Kitching et al. 1998, Ch. 1; Maddison e Maddison 1992, p. 49). Na jargão técnico filogenético, caracteres primitivos são chamados de plesiomorfias, e caracteres derivados são chamados de apomorfias. Na cladística, espécies relacionadas são agrupadas juntas porque compartilham caracteres derivados (ou seja, apomorfias) que originaram-se em um ancestral comum do grupo, mas não estavam presentes em outros ancestrais anteriores do grupo. Essas características compartilhadas e derivadas são chamadas de sinapomorfias. Primitivo e derivado são, portanto, termos relativos, dependendo do grupo específico sendo considerado. Por exemplo, colunas vertebrais são caracteres primitivos de vertebrados, enquanto o pelo é um caráter derivado particular aos vertebrados mamíferos. No entanto, ao considerar apenas mamíferos, o pelo é primitivo, enquanto um polegar opositor é derivado.

Em análises filogenéticas da vida real, caracteres derivados compartilhados podem estar em conflito com outros caracteres derivados. Portanto, métodos objetivos são necessários para resolver esse conflito de caracteres (Kitching et al. 1998, Cap. 1; Maddison e Maddison 1992, p. 49). Por exemplo, as asas são um caráter derivado dos pássaros e dos morcegos. Com base apenas neste caráter, o método cladístico agruparia morcegos e pássaros juntos, que é como o autor de Deuteronômio os agrupou na citação bíblica acima. No entanto, outros caracteres derivados compartilhados indicam que os morcegos devem ser agrupados com mamíferos alados, e que os pássaros devem ser agrupados com dinossauros alados.

Nos últimos 40 anos, vários métodos algorítmicos foram desenvolvidos para resolver tais casos de conflito de caracteres e inferir árvores filogenéticas corretas (Felsenstein 2004, Cap. 10). As seções a seguir descrevem alguns dos métodos mais bem-sucedidos. Cada método tenta inferir uma filogenia a partir de dados existentes, e cada um possui suas respectivas forças e fraquezas. Anos de testes empíricos e simulações mostraram que, em geral, esses algoritmos diferentes, cada um com pressupostos subjacentes muito distintos, convergem para árvores altamente semelhantes quando avaliadas estatisticamente (Li 1997, Capítulos 5 e 6; Nei e Kumar 2000, Capítulos 6, 7 e 8).

Parcimônia máxima

Um dos métodos mais antigos, básicos e frequentemente utilizados para resolução de caracteres é o critério de parcimônia máxima (MP) (Edwards e Cavalli-Sforza 1963; Kitching et al. 1998). O critério de parcimônia determina que a melhor árvore que descreve os dados é aquela que minimiza a quantidade de conflito de caracteres. Por exemplo, considere um conjunto de dados contendo 10 caracteres derivados compartilhados que agrupam morcegos com primatas (em vez de com aves), e com um caractere que agrupa morcegos com aves (em vez de primatas). De acordo com o critério de parcimônia, a árvore que fornece o primeiro agrupamento deve ser preferida.

Atualmente, a parcimônia é o método de escolha para reconstruir árvores morfológicas (Kitching et al. 1998). É muito rápida computacionalmente e pode ser robusta a diferenças nas taxas evolutivas entre os caracteres. No entanto, a máxima parcimônia encontra consistentemente a filogenia correta apenas quando esperamos que o conflito de caracteres seja baixo ou que a evolução progrida de forma parcimoniosa (Felsenstein 2004, Cap. 9; Kitching et al. 1998, p. 17). Se as taxas de evolução forem lentas e os ramos curtos, o conflito de caracteres será baixo e a parcimônia funcionará bem (Felsenstein 2004, Cap. 9; Felsenstein 1981a; Li 1997, p. 128). Se o conflito de caracteres for moderado ou alto na realidade, então é muito improvável que a árvore verdadeira tenha a menor quantidade de conflito de caracteres. Quando as taxas de evolução são altas, ou quando alguns ramos são muito longos, ou quando o número de estados de caracteres possíveis é limitado, o conflito de caracteres pode ser comum. Isso é frequentemente verdadeiro para sequências de nucleotídeos, que têm apenas quatro estados de caracteres possíveis (A, C, T ou G). Em casos como esses, outros métodos filogenéticos podem ser mais precisos que a parcimônia.

Máxima verossimilhança

Outro critério filogenético comumente utilizado é a verossimilhança máxima (ML), uma técnica estatística eficaz e robusta agora usada em todos os campos científicos (Edwards e Cavalli-Sforza 1964; Felsenstein 1981b; Fisher 1912). Muitos estimadores estatísticos bem conhecidos são, na verdade, estimadores de verossimilhança máxima. Por exemplo, a média amostral comum como estimativa da média de uma distribuição gaussiana e o ajuste de mínimos quadrados de uma linha a um conjunto de pontos são ambos estimadores de verossimilhança máxima. Usando ML, pode-se inferir taxas de evolução diretamente dos dados e determinar a árvore que melhor descreve esses dados dada essas taxas inferidas. Em outras palavras, ML encontra a árvore e os parâmetros evolutivos que produzem os dados observados com a maior probabilidade. Diferentemente da parcimônia, ML encontra árvores com a quantidade esperada de conflito de caracteres dada as taxas evolutivas inferidas dos dados, mesmo que essas taxas sejam altas. ML é um método computacionalmente intensivo que pode ser muito demorado.

Métodos de distância

Devido à sua velocidade computacional, os métodos de matriz de distância estão entre os mais populares para inferir filogenias (Nei e Kumar 2000, Cap. 6). Todos os métodos de distância transformam dados de caracteres em uma matriz de distâncias pares, uma distância para cada possível par de táxons em estudo. Os métodos de matriz de distância não são cladísticos, pois a informação sobre caracteres derivados e primitivos foi perdida durante essa transformação. Os métodos de distância abordam a inferência filogenética estritamente como um problema estatístico, e são usados quase exclusivamente com dados moleculares. Embora não sejam cladísticos, os métodos de distância podem ser considerados aproximações para métodos cladísticos, e vários desses métodos são garantidos matematicamente para convergir para a árvore correta à medida que mais dados são incluídos.

A métrica de distância mais simples é meramente o número de diferenças de caracteres entre dois táxons, como o número de diferenças de nucleotídeos entre duas sequências de DNA. Existem muitas outras maneiras de calcular distâncias de sequências moleculares, e a maioria tenta corrigir a possibilidade de múltiplas mudanças em um único sítio durante a evolução. Os métodos para calcular distâncias entre sequências são geralmente nomeados em homenagem aos seus criadores, como Kimura's two-parameter (K2P), Jukes-Cantor (JC), Tamura-Nei (TN), Hasegawa, Kishino, e Yano (HKY), e Felsenstein 1984 (F84). Outras métricas de distância importantes são General Time Reversible (GTR) e LogDet (Felsenstein 2004, pp. Chs 11 e 13; Nei e Kumar 2000, Chs 2 e 3; Li 1997, Chs 3 e 4).

Uma vez que se tem em mãos uma matriz de distâncias para os táxons em questão, existem vários critérios e algoritmos baseados em distância que podem ser utilizados para estimar a árvore filogenética a partir dos dados (Felsenstein 2004, Cap. 11; Li 1997, Cap. 5). O critério de evolução mínima (ME) encontra a árvore na qual a soma de todos os comprimentos dos ramos é a menor. Os critérios de mínimos quadrados ponderados e não ponderados calculam a discrepância entre as distâncias observadas em pares e as distâncias em pares calculadas a partir dos comprimentos dos ramos da árvore inferida. Os métodos de mínimos quadrados então encontram a árvore que minimiza o quadrado dessa discrepância. Os métodos de mínimos quadrados estão entre os mais estatisticamente justificados e convergirão para a árvore correta à medida que mais dados forem incluídos na análise (dada uma métrica de distância matematicamente adequada). O algoritmo de junção de vizinhos (NJ) é extremamente rápido e é uma aproximação dos métodos de mínimos quadrados e evolução mínima. Se a matriz de distâncias for uma descrição exata da árvore verdadeira, então a junção de vizinhos é garantida para reconstruir a árvore correta. O algoritmo de agrupamento UPGMA (um acrônimo confuso) também é extremamente rápido, mas baseia-se na improvável suposição de que as taxas evolutivas são iguais em todas as linhagens. O UPGMA raramente é usado hoje em dia, exceto como uma ferramenta instrucional.

Suporte Estatístico para Filogenias

Uma filogenia é a melhor aproximação da árvore histórica correta utilizando um determinado método filogenético. Algumas análises filogenéticas são fortemente apoiadas pelos dados, outras são fracamente apoiadas, e diferentes partes de uma árvore podem ter mais apoio do que outras. Ao comparar duas filogenias determinadas independentemente, deve-se levar em conta o apoio estatístico atribuído a cada ramo das filogenias. Como em todas as análises científicas, os detalhes de uma árvore filogenética podem mudar à medida que novas informações e dados são incorporados (Maddison e Maddison 1992, pp. 112-123; Li 1997, pp. 36-146; Felsenstein 1985; Futuyma 1998, p. 99; Hillis e Bull 1993; Huelsenbeck et al. 2001; Swofford et al. 1996, pp. 504-509).

Bootstrapping é o método estatístico mais popular para avaliar a confiabilidade dos ramos em uma árvore filogenética (Felsenstein 1985). Bootstrapping é uma técnica estatística para estimar empiricamente a variabilidade de um parâmetro (Efron 1979; Efron e Gong 1983). Em uma análise de bootstrap, um conjunto de dados fictício é criado amostrando aleatoriamente dados do conjunto de dados real até que um novo conjunto de dados do mesmo tamanho seja criado. Este processo é repetido várias vezes (centenas ou milhares de vezes), e o parâmetro de interesse é estimado a partir de cada conjunto de dados fictício. A variabilidade dessas estimativas de bootstrap é, por si só, uma estimativa da variabilidade do parâmetro de interesse.

Em filogenética, uma nova filogenia é inferida a partir de cada conjunto de dados bootstrap (Felsenstein 1985). Essas filogenias bootstrap provavelmente terão topologias diferentes. A partir dessas árvores bootstrap diferentes, a variabilidade na árvore inferida pode ser estimada. As partes das árvores bootstrap que são comuns são atribuídas uma alta confiança, enquanto as partes que variam extensivamente recebem uma baixa confiança. Árvores construídas a partir de dados aleatórios não resultam em árvores ou ramos de alta confiança quando bootstrapadas. Assim, o bootstrap fornece uma maneira de testar se uma árvore filogenética é genuína.

A Inferência Filogenética Encontra Árvores Corretas?

Para estabelecer sua validade na determinação confiável de filogenias, os métodos filogenéticos foram testados empiricamente em casos onde a verdadeira filogenia é conhecida com certeza, uma vez que a verdadeira filogenia foi diretamente observada.

  • O bacteriófago T7 foi propagado e dividido sequencialmente na presença de um mutagênico, onde cada linhagem foi rastreada. Das 135.135 árvores filogenéticas possíveis, a árvore verdadeira foi corretamente determinada por métodos filogenéticos em uma análise cega. Cinco métodos filogenéticos diferentes foram usados independentemente, e cada um escolheu a árvore correta (Hillis et al.1992 ).

  • Em outro estudo, 24 cepas de camundongos foram utilizadas nas quais as relações genealógicas eram conhecidas. A análise cladística reproduziu quase perfeitamente a filogenia conhecida das 24 cepas (Atchely e Fitch 1991).

  • Bush et al. usou análise filogenética para prever retrospectivamente a árvore evolutiva correta do vírus Influenza A humano 83% das vezes para as estações de gripe que abrangem de 1983 a 1994.

  • Em 1998, pesquisadores usaram 111 sequências modernas de HIV-1 (vírus da AIDS) em uma análise filogenética para prever a sequência de nucleotídeos do ancestral viral do qual todos eles eram descendentes. A sequência ancestral prevista coincidiu de perto, com alta probabilidade estatística, uma sequência ancestral real de HIV encontrada em uma amostra de plasma africana soropositiva para HIV coletada e arquivada no Congo Belga em 1959 (Zhu et al.1998 ).

  • Na última década, análises filogenéticas desempenharam um papel significativo em condenações bem-sucedidas em vários casos criminais (Albert et al. 1994; Arnold et al. 1995; Birch et al. 2000; Blanchard et al. 1998; Goujon et al. 2000; Holmes et al. 1993; Machuca et al. 2001; Ou et al. 1992; Veenstra et al. 1995; Vogel 1997; Yirrell et al. 1997), e reconstruções filogenéticas agora foram admitidas como testemunho jurídico pericial nos Estados Unidos (97-KK- 2220 Estado da Louisiana v. Richard J. Schmidt [PDF]). O teste legal nos EUA para admissibilidade de testemunho pericial são as diretrizes Daubert (Caso da Suprema Corte dos EUA Daubert v. Merrell Dow Pharmaceuticals, Inc., 509 U.S. 579, 587-89, 113 S. Ct. 2786, 2794, 125 L. Ed. 2d 469, 1993). As diretrizes Daubert estabelecem que um tribunal de primeira instância deve considerar cinco fatores ao determinar "se a razão ou metodologia subjacente ao testemunho é cientificamente válida": (1) se a teoria ou técnica em questão pode e foi testada; (2) se foi submetida a revisão por pares e publicação; (3) sua taxa de erro conhecida ou potencial; (4) a existência e manutenção de padrões que controlam sua operação; e (5) se atraiu aceitação generalizada dentro da comunidade científica relevante (citado quase literalmente). A análise filogenética oficialmente atende a esses requisitos legais.

Limitações na Inferência Filogenética

Como em qualquer método científico investigativo, certas condições devem ser atendidas para que os resultados sejam confiáveis. Um pressuposto comum de muitos métodos filogenéticos moleculares é que os genes são transmitidos por herança vertical e linear, ou seja, de pai para filho. Se este pressuposto for violado, as árvores genéticas não recapitularão a filogenia de um organismo ou de uma espécie. Esta suposição é violada em casos de transferência horizontal, por exemplo, na transformação de uma bactéria por um plasmídeo de DNA, ou na inserção de retrovírus no genoma de um hospedeiro. Durante a evolução inicial da vida, antes do advento dos organismos multicelulares, a transferência horizontal provavelmente era muito frequente (como é hoje na evolução observada de bactérias e outros organismos unicelulares). Assim, é questionável se os métodos filogenéticos moleculares são aplicáveis, mesmo em princípio, para resolver os padrões evolutivos de muitos microrganismos, incluindo a evolução inicial próxima ao ancestral comum mais recente de todos os organismos vivos (Doolittle 1999; Doolittle 2000; Woese 1998).

A lista abaixo apresenta algumas das ressalvas mais importantes que os cientistas devem ter em mente ao interpretar os resultados de uma análise filogenética (Swofford 1996, pp. 493-509). Em geral, a contribuição de cada uma dessas preocupações será "médida" ao incluir mais caracteres independentes na análise filogenética, como mais genes e sequências mais longas.

  • Caracteres correlacionados: cada caractere utilizado na análise deve ser geneticamente independente. Caracteres que estão fortemente correlacionados funcionalmente devem ser considerados como um único caractere. Existem testes estatísticos que podem ajudar a controlar a correlação de caracteres não reconhecidos, como o bootstrap por blocos e o jackknife.

  • Convergência estrutural verdadeira: estruturas que sofreram evolução convergente podem resultar artificialmente em topologias de árvore incorretas. Incluir mais caracteres na análise também ajuda a superar os efeitos convergentes.

  • Reversões de caracteres: caracteres que reverterem para um estado ancestral apresentam um desafio semelhante à convergência. Como o DNA e o RNA possuem apenas quatro estados de caractere diferentes, eles são especialmente propensos a reversões durante a evolução.

  • Caracteres perdidos: linhagens que perderam caracteres (como as baleias e suas extremidades posteriores) também podem apresentar problemas cladísticos. Frequentemente, se uma análise cladística indicar fortemente que um certo caractere foi perdido durante a evolução, é melhor omitir este caractere em análises de maior resolução dessa linhagem.

  • Caracteres ausentes: fósseis incompletos são problemáticos, pois podem carecer de caracteres importantes. Fósseis melhores são a solução.

  • Número intratável de árvores filogenéticas possíveis: por razões computacionais, este é um dos desafios filogenéticos mais importantes a serem superados. O objetivo de uma reconstrução filogenética é determinar a melhor árvore que os dados suportam. Para uma análise de apenas cinco espécies, existem 15 árvores possíveis. Para uma análise de 50 espécies, existem mais de 1074 árvores possíveis que devem ser pesquisadas — o que é computacionalmente impossível. Este problema não é tão grave quanto parece à primeira vista, pois reduzir o número de árvores razoáveis pode ser trivial em muitos casos (por exemplo, usando o algoritmo branch and bound). Vários métodos foram desenvolvidos para contornar este problema com sucesso, e, em última análise, computadores mais poderosos são melhores.

  • Suposições de Máxima Verossimilhança: o método de máxima verossimilhança faz suposições explícitas sobre o padrão de substituições de nucleotídeos com base em um determinado modelo de evolução de nucleotídeos. Estas suposições são baseadas em uma sólida fundação estatística; no entanto, a validade dos modelos deve ser considerada ao avaliar os resultados.

  • Atração de ramos longos: linhagens que divergiram relativamente há muito tempo tenderão a "agrupar-se" juntas em uma reconstrução filogenética sob as condições apropriadas. As razões matemáticas são um pouco complicadas, mas o uso de genes que evoluem mais lentamente (ou regiões de genes) ajuda a superar o problema.

  • Variação de taxas entre linhagens: as taxas de substituição de nucleotídeos podem diferir entre linhagens; isso pode contribuir para a atração de ramos longos e resultar em topologias de árvore incorretas. No entanto, os métodos de máxima verossimilhança e mínimos quadrados são particularmente úteis aqui.

  • Variação de taxas dentro de um único gene: as taxas de substituição de nucleotídeos podem variar ao longo do comprimento de um único gene — isso também exacerba a atração de ramos longos.

  • Árvores gênicas não são equivalentes a árvores de espécies: da genética mendeliana simples sabemos que os genes segregam individualmente e que, ao longo do tempo, os genes individuais não seguem necessariamente a genealogia dos organismos (Avise e Wollenberg 1997; Fitch 1970; Hudson 1992; Nichols 2001; Wu 1991). Um exemplo óbvio é o fato de que, embora você possa ter olhos castanhos, seu filho pode ter os genes para olhos azuis — mas isso não significa que seu filho não seja seu descendente, nem que seus filhos de olhos castanhos estejam mais relacionados a você do que seus filhos de olhos azuis. Incluir múltiplos genes na análise é uma solução para este dilema. Com base em cálculos genéticos simples, uma análise de mais de cinco genes é geralmente necessária para reconstruir com precisão uma filogenia de espécies (Wu 1991).

Para mais informações sobre cladística, você pode consultar um dos vários excelentes recursos online sobre cladística, como a Introdução à Filogenética do SASB, o Laboratório de Filogenética da Biologia Integrativa da UC Berkeley, ou a excelente Introdução à Análise Cladística de Diana Lipscomb, disponível para download no formato Adobe Acrobat PDF. Uma boa e concisa descrição para leigos pode ser encontrada no Journal of Avocational Paleontology. Finalmente, você pode ler a explicação de Charles Darwin em A Origem das Espécies sobre a "Árvore da Vida", onde o conceito de árvore filogenética foi introduzido pela primeira vez.

<--
Anterior
-->
Próximo

Referências

Albert, J., Wahlberg, J., Leitner, T., Escanilla, D. e Uhlen, M. (1994) "Análise de um caso de estupro por sequenciamento direto dos genes pol e gag do vírus da imunodeficiência humana tipo 1." J Virol 68: 5918-24. [PubMed]

Arnold, C., Balfe, P. e Clewley, J. P. (1995) "Distâncias entre sequências dos genes env do HIV-1 em indivíduos infectados a partir da mesma fonte: implicações para a investigação de possíveis eventos de transmissão." Virology 211: 198-203. [PubMed]

Atchely, W. R., e Fitch, W. M. (1991) "Árvores gênicas e as origens de linhagens endogâmicas de camundongos." Science 254: 554-558. [PubMed]

Avise, J. C., e Wollenberg, K. (1997) "Filogenia e a origem das espécies." PNAS 94: 7748-7755. http://www.pnas.org/cgi/ content/full/94/15/7748

Birch, C. J., McCaw, R. F., Bulach, D. M., Revill, P. A., Carter, J. T., Tomnay, J., Hatch, B., Middleton, T. V., Chibo, D., Catton, M. G., Pankhurst, J. L., Breschkin, A. M., Locarnini, S. A. e Bowden, D. S. (2000) "Análise molecular de cepas do vírus da imunodeficiência humana associadas a um caso de transmissão criminal do vírus." J Infect Dis 182: 941-4. http://jid.oxfordjournals.org/content/182/3/941.long

Blanchard, A., Ferris, S., Chamaret, S., Guetard, D. e Montagnier, L. (1998) "Evidências moleculares para a transmissão nosocomial do vírus da imunodeficiência humana de um cirurgião a um de seus pacientes." J Virol 72: 4537-40. http://jvi.asm.org/cgi/content/full/72/5/4537?view=full&pmid=9557756

Brooks, D. R., e McLennan, D. A. (1991) Filogenia, ecologia e comportamento. Chicago: University of Chicago Press.

Bush, R. M., C. A. Bender, et al. (1999) "Prever a evolução da influenza A humana." Science 286: 1921-1925. [PubMed]

Doolittle, W. F. (1999) "Classificação Filogenética e a Árvore Universal." Science 284: 2124. [PubMed]

Doolittle, W. F. (2000) "A natureza do ancestral universal e a evolução do proteoma." Current Opinion in Structural Biology 10: 355-358. [PubMed]

Edwards, A. W. F. e Cavalli-Sforza, L. L. (1963) "A reconstrução da evolução." Annals of Human Genetics 27: 105-106.

Efron, B. (1979) "Métodos Bootstrap: Outra olhada no jackknife." Anais de Estatística 7: 1-26.

Efron, B. e Gong, G. (1983) "Uma análise descontraída do bootstrap, do jackknife e da validação cruzada." American Statistician 37: 36-48.

Edwards, A. W. F. e Cavalli-Sforza, L. L. (1964) "Reconstrução de árvores filogenéticas." em Classificação Fenética e Filogenética. ed. Heywood, V. H. e McNeill. Londres: Systematics Assoc. Pub No. 6.

Felsenstein, J. (1981) "Uma abordagem de verossimilhança para ponderação de caracteres e o que isso nos ensina sobre parcimônia e compatibilidade." Biol J Linn Soc Lond 16: 183-196.

Felsenstein, J. (1981) "Árvores evolutivas a partir de sequências de DNA: uma abordagem de máxima verossimilhança." J Mol Evol 17: 368-376. [PubMed]

Felsenstein, J. (1985) "Limites de confiança em filogenias: uma abordagem usando o bootstrap." Evolution 39: 783-791.

Felsenstein, J. (2004) Inferring Phylogenies. Sunderland, MA: Sinauer Associates.

Fisher, R. A. (1912) "Sobre um critério absoluto para ajustar curvas de frequência." Messenger of Mathematics 41: 155-160.

Fitch, W. M. (1970) "Distinguir proteínas homólogas de análogas." Syst. Zool. 28: 132-163.

Futuyma, D. (1998) Biologia Evolutiva. Terceira edição. Sunderland, MA: Sinauer Associates.

Goujon, C. P., Schneider, V. M., Grofti, J., Montigny, J., Jeantils, V., Astagneau, P., Rozenbaum, W., Lot, F., Frocrain-Herchkovitch, C., Delphin, N., Le Gal, F., Nicolas, J. C., Milinkovitch, M. C. e Deny, P. (2000) "Análises filogenéticas indicam uma transmissão atípica de enfermeira para paciente do vírus da imunodeficiência humana tipo 1." J Virol 74: 2525-32. http://jvi.asm.org/cgi/content/full/74/6/2525?view=full&pmid=10684266

Hennig, W. (1966) Sistemática Filogenética. (Tradução para o inglês). Urbana: University of Illinois Press.

Hillis, D. M., e Bull, J. J. (1993) "Um teste empírico do bootstrap como método para avaliar a confiança em análises filogenéticas." Syst. Biol. 42: 182-192.

Hillis, D. M., J. J. Bull, et al. (1992) "Filogenética experimental: Geração de uma filogenia conhecida." Science 255: 589-592. [PubMed]

Holmes, E. C., Zhang, L. Q., Simmonds, P., Rogers, A. S. e Brown, A. J. (1993) "Investigação molecular da infecção por vírus da imunodeficiência humana (HIV) em um paciente de um cirurgião infectado pelo HIV." J Infect Dis 167: 1411-4. [PubMed]

Hudson, R. R. (1992) "Árvores gênicas, árvores de espécies e a segregação de alelos ancestrais." Genetics 131: 509-513. [PubMed]

Huelsenbeck, J. P., Ronquist, F., Nielsen, R., e Bollback, J. P. (2001) "Inferência bayesiana da filogenia e seu impacto na biologia evolutiva." Science 294: 2310-2314. [PubMed]

Kitching, I. J., Forey, P. L., Humphries, C. J., e Williams, D. M. (1998) Cladística: A Teoria e a Prática da Análise de Parsimônia. Segunda Edição. Publicação da Associação de Sistemática No. 11. Oxford: Oxford University Press.

Li, W.-H. (1997) Evolução Molecular. Sunderland, MA: Sinauer Associates.

Machuca, R., Jorgensen, L. B., Theilade, P. e Nielsen, C. (2001) "Investigação molecular da transmissão do vírus da imunodeficiência humana tipo 1 em um caso criminal." Clin Diagn Lab Immunol 8: 884-90. [PubMed]

Maddison, W. P., e Maddison, D. R. (1992) MacClade. Sunderland, MA: Sinauer Associates.

Nei, M. e Kumar, S. (2000) Evolução Molecular e Filogenética. Nova York, NY: Oxford University Press.

Nichols, R. (2001) "Árvores gênicas e árvores de espécies não são a mesma coisa." Trends Ecol Evol. 16: 358-364. [PubMed]

Ou, C. Y., Ciesielski, C. A., Myers, G., Bandea, C. I., Luo, C. C., Korber, B. T., Mullins, J. I., Schochetman, G., Berkelman, R. L., Economou, A. N. e et al. (1992) "Epidemiologia molecular da transmissão do HIV em uma clínica dentária." Science 256: 1165-71. [PubMed]

Swofford, D. L., Olsen, G. J., Waddell, P. J., e Hillis, D. M. (1996) "Inferência filogenética." Em Sistemática Molecular, pp 407-514. Hillis, D. M., Moritiz, C. e Mable, B. K. eds., Sunderland, Massachusetts: Sinauer.

Veenstra, J., Schuurman, R., Cornelissen, M., van't Wout, A. B., Boucher, C. A., Schuitemaker, H., Goudsmit, J. e Coutinho, R. A. (1995) "Transmissão de variantes do vírus da imunodeficiência humana tipo 1 resistentes à zidovudina após injeção deliberada de sangue de um paciente com AIDS: características e história natural do vírus." Clin Infect Dis 21: 556-60. [PubMed]

Vogel, G. (1997) "Análise filogenética: ganhando seu dia no tribunal." Science 275: 1559-60. [PubMed]

Woese, C. (1998) "O ancestral universal." PNAS 95: 6854-6859. http://www.pnas.org/cgi/ content/full/95/12/6854

Wu, C. I. (1991) "Inferências da filogenia de espécies em relação à segregação de polimorfismos antigos." Genetics 127: 429-435. [PubMed]

Yirrell, D. L., Robertson, P., Goldberg, D. J., McMenamin, J., Cameron, S. e Leigh Brown, A. J. (1997) "Investigação molecular sobre o surto de HIV em uma prisão escocesa." Bmj 314: 1446-50. http://bmj.com/cgi/content/full/314/7092/1446?view=full&pmid=9167560

Zhu, T., B. Korber, et al. (1998) "Uma sequência de HIV-1 africana de 1959 e implicações para a origem da epidemia." Nature 391: 594-597. [PubMed]

Referências completas

Glossário

<--
Anterior
-->
Próximo