手把手教你用 Fast Tree 快速構建序列進化樹

生物學霸muminwangzi2018-01-06 14:56:59



常見的建樹方法有:


貝葉斯法(Bayesian),最大似然法(Maximum likelihood,ML),最大簡約法(Maximum parsimony,MP),鄰接法(Neighbor-Joining,NJ),最小進化法(Minimum Evolution,ME),類平均法(UPGMA)。


一般來講,如果模型合適,最大似然法的效果較好。對於近緣序列,最大簡約法用的假設最少,各種方法結果相似。而對於遠緣序列,一般使用最大似然法或鄰接法。對相似度很低的序列,鄰接法往往出現 Long-branch attraction(LBA,長枝吸引現象),嚴重干擾進化樹的構建。對於各種方法構建分子進化樹的準確性,Hall 認為貝葉斯的方法最好,其次是最大似然法,然後是最大簡約法。其實如果序列的相似性較高,各種方法結果差別不大。


最大似然法和鄰接法需要選擇模型。對於蛋白質序列,一般選擇 Poisson Correction(泊松修正)模型。而對於核酸序列,一般選擇 Kimura 2-parameter(Kimura-2 參數)模型。


表 1. 的常用軟件


軟件名稱

簡介

Clustal X

圖形化的序列比對工具

GeneDoc

多序列比對結果美化工具

BioEdit

序列

MEGA

圖形化比對,進化分析綜合工具

PAUP

Phylip

進化分析工具

PhyML

最大似然法建樹工具

PAML

最大似然法建樹工具

MrBayes

貝葉斯法建樹工具

FastTree

最大似然法建樹工具(速度快)

TreeView

進化樹顯示工具


本文主要講 FastTree 使用方法:


首先介紹幾點特性:


1. 在默認參數下,FastTree 比 PhyML 更準確,比 PhyML 快 100~1000 倍;


2FastTree 使用模型為:核酸進化模型:Jukes-Cantor 或者 GTR(generalized time-reversible);蛋白進化模型:JTT (Jones-Taylor-Thornton 1992), WAG (Whelan & Goldman 2001) 或者 LG (Le and Gascuel 2008)



 

下載,安裝 FastTree


FastTree 提供以下幾個版本:


  • Linux 64-bit executable (+SSE) 

  • Multi-threaded executable (+SSE +OpenMP) (see usage guide)

  • Windows 32-bit command-line executable (no SSE)

  • C code


下載 Windows 32-bit command-line executable (no SSE) 後,是一個 FastTree.exe 文件,可以直接在 cmd 命令行程序中調用運行。


新建一個文件夾:比如在 D 盤目錄下新建一個 FastTree 文件夾,將 FastTree.exe 程序放在 D:FastTree 目錄下。



 

FastTree 運行(Windows 為例)


  • 開始菜單—搜索—cmd

  • 切換目錄到 D:FastTree

  • 最大似然樹構建:FastTree protein alignment file > tree

  • 在目錄 D:FastTree 生成.tree 文件,可以使用 TreeView 或 MEGA 打開。

  • 構建進化樹時,可以選擇不同的模型:
    命令行:D:FastTree>FastTree -lg CIPK.phy >CIPK.tree





 

alignment file 格式



alignment file 格式如上圖。


可以首先使用 Clustal X 比對序列:Alignment—Output Format Options—Phylip format



比對後,在比對目錄下生成幾個文件,其中.phy 後綴名文件是 FastTree 要使用的。


參考文獻:


Hall B G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences[J]. Molecular Biology and Evolution, 2005, 22(3): 792-802.

Price, M.N., Dehal, P.S., and Arkin, A.P. (2009) FastTree: Computing Large Minimum-Evolution Trees with Profiles instead of a Distance Matrix. Molecular Biology and Evolution 26:1641-1650.

Price, M.N., Dehal, P.S., and Arkin, A.P. (2010) FastTree 2 -- Approximately Maximum-Likelihood Trees for Large Alignments. PLoS ONE, 5(3):e9490.

Jones D T, Taylor W R, Thornton J M. The rapid generation of mutation data matrices from protein sequences[J]. Computer applications in the biosciences: CABIOS, 1992, 8(3): 275-282.

Whelan S, Goldman N. A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach[J]. Molecular biology and evolution, 2001, 18(5): 691-699.

Le S Q, Gascuel O. An improved general amino acid replacement matrix[J]. Molecular biology and evolution, 2008, 25(7): 1307-1320.



作者:muminwangzi

圖片來源:muminwangzi

題圖來源:丁香通

相關 Protocol


進化樹分析及其軟件使用

如何做系統進化樹

MEGA4.1 建進化樹步驟

進化樹搜索


請戳閱讀原文查看

閱讀原文

TAGS: