Informacije

Clustal Omega - pretvoriti sa udaljenosti u # zamjena

Clustal Omega - pretvoriti sa udaljenosti u # zamjena


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Imam skup nukleotidnih sekvenci za koje sam poravnao koristeći Clustal Omega. Konkretno, izvršio sam potpuno poravnanje i dobio matricu pune udaljenosti.

Rezultati matrice udaljenosti kreću se između 0 i 1. Želim da koristim ovaj rezultat za pozadinsko izračunavanje broja različitih pozicija prisutnih u poravnanju. Je li to moguće? Ako je moguće, pokušavam izbjeći korištenje koda (sopstvenog ili nekog drugog) za ponovno izračunavanje broja pozicija koje se razlikuju između svakog para segmenata, i umjesto toga izračunati ga direktno iz rezultata udaljenosti.

Evo primjera igračke onoga što primam od ClustalOmega:

Redoslijed 1 2 3 4 1 0 0,1 0,06 0,1 2 0 0,4 0,23 3 0 0,05 4 0

Brojevi su "udaljenosti" koje je izračunao ClustalOmega. Prema README datoteci, oni su izračunati pomoću k-torke mjere. Pokušao sam raščlaniti originalni rad (objavljen 1983. u PNAS-u), ali nisam mogao shvatiti kako se izračunavaju udaljenosti k-torke, i nisam mogao shvatiti kako se metrika udaljenosti (kao što je gore navedeno) izračunava iz k-torke udaljenosti.

Želio bih te brojeve pretvoriti ubroj pozicija koje se razlikuju između svakog para sekvenci kada su one poravnate. Ovo uključuje zamjene, umetanja, brisanja. Ovo trenutno radim za 520 setova virusnih sekvenci. Je li to moguće?


Koristi gonet matricu za upoređivanje svake od ove dvije sekvence. Pošto ste mogli imati umetanja i proširenja kao i zamjene, to postaje problem sa 3 parametra. 1*open + 6*penalty + substitution_penalty = X. X se može riješiti linearnom kombinacijom substitution_penalties, proširenja i umetanja. Tako da mislim da će ovo biti zaista teško

s tim što je rečeno. Clustal daje višestruko poravnanje sekvenci. Zašto jednostavno ne pogledate sekvencu 1 i sekvencu 2 i vidite šta su umetanja i zamjene!


Višestruko poravnanje sekvenci

Višestruko poravnanje sekvenci (MSA) može se odnositi na proces ili rezultat poravnanja sekvenci tri ili više bioloških sekvenci, općenito proteina, DNK ili RNK. U mnogim slučajevima, pretpostavlja se da ulazni skup sekvenci upita ima evolucijski odnos prema kojem dijele vezu i potječu od zajedničkog pretka. Iz rezultirajućeg MSA, može se zaključiti homologija sekvenci i može se provesti filogenetska analiza kako bi se procijenilo zajedničko evoluciono porijeklo sekvenci. Vizualni prikazi poravnanja kao na slici desno ilustriraju događaje mutacije kao što su mutacije u tački (promjene jedne aminokiseline ili nukleotida) koje se pojavljuju kao različiti znakovi u jednom stupcu poravnanja, i mutacije umetanja ili brisanja (indeli ili praznine) koje se pojavljuju kao crtice u jednoj ili više sekvenci u poravnanju. Višestruko poravnanje sekvenci se često koristi za procjenu očuvanja sekvenci proteinskih domena, tercijarnih i sekundarnih struktura, pa čak i pojedinačnih aminokiselina ili nukleotida.

Računski algoritmi se koriste za proizvodnju i analizu MSA-ova zbog teškoće i nemogućnosti ručne obrade sekvenci s obzirom na njihovu biološki relevantnu dužinu. MSA zahtijevaju sofisticiranije metodologije od poravnanja u paru jer su računski složenije. Većina programa za poravnanje višestrukih sekvenci koristi heurističke metode, a ne globalnu optimizaciju, jer je identificiranje optimalnog poravnanja između više od nekoliko sekvenci umjerene dužine pretjerano računski skupo. S druge strane, heurističke metode generalno ne daju garancije za kvalitet rješenja, pri čemu se pokazalo da su heuristička rješenja često daleko ispod optimalnog rješenja na referentnim instancama. [1] [2] [3]


ALGNMENTS

LALIGN - (EMBnet) pronalazi više podsegmenata koji se podudaraju u dva niza. Pruža jedan sa % identiteta za različite podsegmente niza.

FFAS - Sistem dodjeljivanja preklopa i funkcija. Profil korisnika proteina sada se može porediti sa njim

20 dodatnih baza podataka profila. Korisnik može, kroz niz kartica, da se kreće po više stranica sa rezultatima, a uključuje i nove funkcionalnosti, kao što je preglednik grafova tačaka, alati za modeliranje, poboljšani preglednik 3D poravnanja i veze do baze podataka strukturalnih sličnosti. ( Referenca: Jaroszewski, L. et al. 2011. Nucleic Acids Res. 39(Problem web servera):W38-44)

Uporedite dve sekvence sa LALIGN/PLALIGN pronađite unutrašnje duplikacije izračunavanjem neukrštajućih lokalnih poravnanja proteinskih ili DNK sekvenci. LALIGN prikazuje poravnanja i rezultate sličnosti, dok PLALIGN predstavlja grafik nalik "tačkastom grafikonu".

SFESA (Shift to Fix sekundarna struktura ElementS in Alignments) - je web server za parno preciziranje poravnanja pomacima sekundarne strukture. SFESA procjenjuje varijante poravnanja generirane lokalnim pomacima i odabire najbolju varijantu poravnanja. (Referenca: Tong J et al (2015). Proteini. 83(3): 411-427).

LAST - pruža puno kontrole rukovanja podacima, zajedno sa tačkama i poravnanjima u boji (Referenca: Kielbasa SM et al. Genome Res 21(3): 487-93).

vasabi - (Andres Veidenberg, Univerzitet u Helsinkiju, Finska) je aplikacija zasnovana na pretraživaču za vizualizaciju i analizu podataka višestrukog poravnanja molekularnih sekvenci.

VerAlign poređenje višestrukih sekvenci je program za poređenje koji procjenjuje kvalitet testnog poravnanja u odnosu na referentnu verziju istog poravnanja.

Parno poravnanje nukleotidnih sekvenci za taksonomiju (EzBioCloud, Nacionalni univerzitet u Seulu, Republika Koreja) - za nukleotidne sekvence < 5 kb daje poravnanje boja i rezultat sličnosti na osnovu Myersa i Millera (Globalno poravnanje)

GeneWise (EMBL-EBI) - upoređuje sekvencu proteina sa sekvencom genomske DNK, omogućavajući greške introna i pomaka okvira.

SIM - Alat za poravnavanje proteina (ExPASy, Švicarska) daje fragmentirana poravnanja slična LALIGN-u.

WebPRANK - server podržava poravnanje sekvenci DNK, proteina i kodona, kao i poravnanje cDNK transliranih proteina, i uključuje ugrađene modele strukture za poravnanje genomskih sekvenci. Rezultirajuća poravnanja mogu se izvesti u različitim formatima koji se široko koriste u analizama evolucijskih sekvenci. WebPRANK server također uključuje moćni web-bazirani pretraživač za poravnanje za vizualizaciju i naknadnu obradu rezultata u kontekstu kladograma koji se odnosi na sekvence, omogućavajući (npr.) uklanjanje kolona za poravnanje sa niskom stražnjom pouzdanošću. Pored de novo poravnanja, webPRANK se može koristiti za zaključivanje sekvenci predaka sa filogenetski realističnim obrascima praznina, te za označavanje i naknadnu obradu postojećih poravnanja. ( Referenca: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics 11: 579).

BLAST2 (NCBI) - također korisno za poređenje sekvenci DNK. Pruža malu grafiku koja se koristi samo za proteine ​​ili kratke DNK sekvence.

Sličnost sekvenci proteina i rezultati identiteta:

EMBOSS supermatcher Koristite 10 i 0,5 kao podrazumevane vrednosti za kaznu otvaranja Gap-a i kaznu za produženje Gap-a, respektivno.
EMBOSS matcher - pronalazi najbolja lokalna poravnanja između dvije sekvence

FOLDALIGN - savija i poravnava RNA strukture (napravi foldalignment) na osnovu laganog energetskog modela i sličnosti sekvence. Trenutna verzija pravi parno presavijanje poravnanja. (Referenca: J. H. Havgaard et al. 2005. Bioinformatics 21: 1815 - 1824).

UPOREDITE VIŠE REDOVA :

POZADINSKE INFORMACIJE: Postoje dvije dobre on-line stranice za pomoć za CLUSTAL W. Ovo su (a) On-line pomoć za CLUSTAL (Viki.) i, (b) Višestruko poravnanje sekvenci , (Wiki)

ClustalW - Višestruko poravnanje sekvenci (EBI, Ujedinjeno Kraljevstvo). Ovo pruža niz opcija za prezentaciju podataka, matrice homologije [BLOSUM (Henikoff), PAM (Dayhoff) ili GONNET, i prezentaciju filogenetskih stabala (Neighbor-Joining, Phylip ili Distance). Sajtovi koji nude ClustalW poravnanje su na Univerzitetu Kjoto i chEMBLnet.org

Clustal Omega - je novi program za poravnanje višestrukih sekvenci koji koristi zasadjena stabla vodiča i tehnike profila HMM profila za generiranje poravnanja. (Referenca: Sievers, F. et al. 2011. Molecular Systems Biology 7 Broj artikla: 539)

MAFFT Višestruko poravnanje sekvenci i NJ / UPGMA filogenija - Nedavno sam pokušao da uskladim trinaest genoma bakteriofaga od 50 kb koristeći ClustalW, bez uspjeha, MAFFT je omogućio poravnanje nevjerovatno brzo. Nažalost, to ne bi stvorilo stablo. Clustal podaci su otvoreni u ClustalX-u i stablo je sačuvano u podrazumevanim postavkama i vizualizovano u FigTree (Referenca: Katoh, K. et al. 2002. Nucl. Acids Rese. 30 : 3059-3066).

DbClustal - (EMBL-EBI) poravnava sekvence iz BlastP pretrage baze podataka sa jednom sekvencom upita. Algoritam poravnanja je baziran na ClustalW2 modificiranom da inkorporira lokalne podatke o poravnanju u obliku sidrišta između parova sekvenci. Vrlo šaren izlaz.

LALIGN - dio VISTA alata za komparativnu genomiku

PROBCONS - je novi alat za generisanje višestrukih poravnanja proteinskih sekvenci. Koristeći kombinaciju probabilističkog modeliranja i tehnika poravnanja zasnovanih na konzistentnosti, PROBCONS je postigao najveću preciznost od svih dosadašnjih metoda poravnanja. U BAliBASE referentnoj bazi podataka za poravnanje, poravnanja proizvedena od strane PROBCONS-a pokazuju statistički značajno poboljšanje u odnosu na trenutne programe, sadržavajući u prosjeku 7% ispravno poravnatih stupaca od onih u T-Coffee-u, 11% više ispravno poravnatih stupaca od onih u CLUSTAL W i 14 % više ispravno poravnatih stupaca od onih u DIALIGN-u. ( Referenca: C.B. Do et al. 2005. Genome Res. 15: 330-340).

webPRANK - uključuje višestruko poravnanje sekvenci svjesno filogenije, vizualizaciju i naknadnu obradu u web interfejsu koji je jednostavan za korištenje (Referenca: Löytynoja, A., & Goldman, N. 2010. BMC Bioinformatics. 11:579).

GUIDANCE - implementira dva različita algoritma za procjenu rezultata pouzdanosti: (i) metodu glava ili rep (HoT), koja mjeri nesigurnost poravnanja zbog kooptimalnih rješenja (ii) metodu GUIDANCE, koja mjeri robusnost poravnanja prema nesigurnost stabla vodiča. Server projektuje rezultate pouzdanosti na MSA i ukazuje na kolone i sekvence koji su nepouzdano usklađeni. Oni se mogu automatski ukloniti u pripremi za nizvodne analize. N.B. Potrebno je najmanje 8 sekvenci (Referenca: Penn, O. 2010. Nucleic Acids Res. 38(Problem sa web serverom): W23-28).

SALIGN - automatski određuje najbolju proceduru poravnanja na osnovu ulaza, dok dozvoljava korisniku da poništi zadane vrijednosti parametara. Višestruka poravnanja su vođena dendrogramom izračunatim iz matrice svih rezultata poravnanja u paru. Kada poravnava sekvence sa strukturama, SALIGN koristi informacije o strukturnom okruženju kako bi optimalno postavio praznine. Ako su dva višestruka poravnanja srodnih proteina unesena na server, vrši se poravnanje profila i profila (Referenca: Braberg, H. et al. 2012. Bioinformatics. 28(15):2072-2073).

AlignMe (za poravnavanje membranskih proteina) je vrlo fleksibilan program za poravnanje sekvenci koji omogućava korištenje različitih mjera sličnosti. Ove mjere sličnosti uključuju: supstitucijske matrice, skale hidrofobnosti i bilo koju vrstu profila (tj. predviđanja sekundarne strukture ili transmembranska predviđanja). ( Referenca: Khafizov K et al. 2014. Nucl. Acids Res. 42(W1), W246-W251)

PRALINE - je program za višestruko poravnanje sekvenci sa mnogo opcija za optimizaciju informacija za svaku od ulaznih sekvenci, npr. globalna ili lokalna predobrada, predviđene informacije o sekundarnoj strukturi i mogućnosti ponavljanja. ( Referenca: V.A. Simossis et al. (2005) Nucleic Acids Res. 33: 816-824). Primjer PRALINE izlaza:

Gene Context Tool - je nevjerovatan alat za vizualizaciju konteksta genoma gena ili grupe gena (sintenija). U sljedećem dijagramu analiziran je RpoN (Sigma54) protein. ( Referenca: R. Ciria et al. (2 004) Bioinformatics 20: 2307-2308).

ConSurf je bioinformatički alat za procjenu evolucijske konzervacije položaja amino/nukleinskih kiselina u molekulu proteina/DNK/RNA na osnovu filogenetskih odnosa između homolognih sekvenci. Stepen do kojeg je pozicija amino (ili nukleinske) kiseline evolucijski očuvana u velikoj mjeri ovisi o njenoj strukturnoj i funkcionalnoj važnosti. Brzo evoluirajuće pozicije su promjenjive, dok su polako evoluirajuće pozicije očuvane. ( Referenca: Ashkenazy, H. et al. 2010. Nucl. Acids Res. 38 (dodatak 2): W529-W533).

MultAlin - Višestruko poravnanje sekvenci Florence Corpet (Institut National de la Recherche Agronomique (INRA), Francuska). N.B. Rezultati su predstavljeni u boji.

Višestruko poravnanje - GeneBee usluga (Belozerski institut za fizičko-hemijsku biologiju, Moskovski državni univerzitet, Rusija) . N.B. Ova usluga takođe pruža filogenetičku analizu podataka.

PROMALS3D - konstruiše poravnanja za višestruke proteinske sekvence i/ili strukture koristeći informacije iz pretraživanja baze podataka sekvenci, predviđanje sekundarne strukture, dostupne homologe sa 3D strukturama i korisnički definisana ograničenja. ( Referenca: Pei, J. et al. 2008. Nucleic Acids Res. 36(7): 2295-2300 ).

SANSparallel: interaktivno pretraživanje homologije u odnosu na Uniprot - web server pruža pretrage baze podataka proteinskih sekvenci s trenutnim odgovorom i profesionalnom vizualizacijom poravnanja od strane softvera treće strane. Izlaz je lista, parno poravnanje ili naslagano poravnanje proteina sličnih sekvenci iz Uniprot, UniRef90/50, Swissprot ili Protein Data Bank. Naslagana poravnanja se gledaju u Jalviewu ili kao logotipi sekvence. Pretraživanje baze podataka koristi metodu pretraživanja susjedstva niza sufiksa (SANS), koja je ponovo implementirana kao klijent-server, poboljšana i paralelizirana. Metoda je izuzetno brza i osjetljiva kao BLAST iznad 50% identiteta sekvence. ( Referenca: P. Somervuo & L. Holm. 2015. Nucl. Acids Res. 43 (W1): W24-W29).

DiAlign (Univ. Bielfeld, Njemačka) - "DIALIGN je novi program za višestruko poravnanje koji su razvili Burkhard Morgenstern et al. Dok se standardne metode poravnanja oslanjaju na poređenje pojedinačnih ostataka i nametanje praznina, DIALIGN konstruiše parno i višestruko poravnanje upoređujući čitave segmente sekvenci."

Kolekcija kafe - T-Coffee (poravnava DNK, RNA ili proteine ​​koristeći zadanu T-kafu), M-Coffee (usklađuje DNK, RNA ili proteine ​​kombinacijom izlaza popularnih algnera), R-Coffee (poravnava RNA sekvence pomoću predviđene sekundarne strukture), Expresso (Poravnava sekvence proteina koristeći strukturne informacije), PSI-Coffee (Poravnava udaljeno srodne proteine ​​koristeći proširenje homologije) i TM-Coffee (Poravnava transmembranske proteine ​​koristeći proširenje homologije). ( Referenca: Di Tommaso. P. et al. 2011. Nucleic Acids Res. 39(Izdanje web servera: W13-17 Chang, J.M. et al. 2012. BMC Bioinformatics. 13 Suppl 4: S1).

TM-Aligner - pruža višestruko poravnanje sekvenci za transmembranske proteine ​​(Referenca: Bhat B et al. (2017) Naučni izvještaji 7: Broj artikla: 12543 ).

LocARNA - Multiple Aligment of RNAs - je alat za višestruko poravnanje RNA molekula. LocARNA zahtijeva samo RNA sekvence kao ulaz i istovremeno će savijati i poravnavati ulazne sekvence. LocARNA daje višestruko poravnanje zajedno sa strukturom konsenzusa. Za savijanje koristi vrlo realističan energetski model za RNK kao što je to pomoću RNAfolda bečkog RNA paketa (ili Zukerovog mfolda). Za poravnanje ima ocjenjivanje sličnosti poput RIBOSUM-a i realnu cijenu jaza. ( Referenca: C. Smith et al. 2010. Nucl. Acids Res. 38: W373-377).

CARNA je alat za višestruko poravnanje RNA molekula. CARNA zahtijeva samo RNA sekvence kao ulaz i izračunava matrice vjerovatnoće parova baza i poravnava sekvence na osnovu njihovih kompletnih ansambala struktura. Alternativno, također možete obezbijediti matrice vjerovatnoće baznih parova (tačkasti grafikoni u .ps formatu) ili fiksne strukture (kao napomene u FASTA poravnanju) za vaše sekvence. Ako dajete fiksne strukture, samo te strukture, a ne cijeli ansambl mogućih struktura se poravnavaju. Za razliku od LocARNA, CARNA ne bira najvjerovatniju strukturu konsenzusa, već izračunava poravnanje koje najbolje odgovara svim vjerovatnim strukturama istovremeno. Stoga je CARNA posebno korisna kada se ravnaju RNA kao što su ribos prekidači, koji imaju više od jedne stabilne strukture. ( Referenca: A. Dragos et al. 2012. Nucleic Acids Reseach 40: W49-W53)

Web-Beagle: web server za parno globalno ili lokalno poravnanje RNA sekundarnih struktura. ( Referenca: E. Mattei et al. 2015. Nucl. Acids Res. 43 (W1): W493-W497).

Alternativne prezentacije poravnanja:
BOXSHADE - (Hofmann & Baron, Institut Pasteur, Francuska) Ova verzija prihvata širok izbor formata datoteka i omogućava podnosiocu zahtjeva značajnu fleksibilnost u definiranju izgleda izlaza (boja i raspored kao i format).

ESPript 3.0 - (IUniversite Lyon, Francuska) - je program koji prikazuje sličnosti sekvenci i informacije o sekundarnoj strukturi iz usklađenih sekvenci u svrhu analize i objavljivanja. Ovo zahtijeva da sačuvate svoje poravnanje kao *.aln datoteku. Dostupna je dobra kontrola nad izgledom i formatom izlaza (ps, tiff i gif). ( Referenca: Robert X. & Gouet P. 2014. Nucl. Acids Res. 42 (W1), W320-W324).

Prikaži višestruko poravnanje - (Bioinformatics.org/The Open Lab University of Massachusetts Lowell) Omogućava značajan izbor u poravnanju boja.

Poređenje sekvenci između dva genoma:


Bioinformatički alati FAQ

Svaki alat ima svoje ograničenje, molimo pogledajte odgovarajući web obrazac ili stranicu web servisa za pojedinačne alate. EBI usluga ima ograničenja i stoga će se manji broj vrlo dugih sekvenci često zaustaviti prije nego što se poravnanje završi. Naši algoritmi alata NISU namijenjeni za proizvodnju mapa sintenije genoma.

Koje ulazne formate mogu koristiti?

Svaki alat ima različite zahtjeve, međutim formati GCG, FASTA, EMBL (samo nukleotidi), GenBank, PIR, NBRF, PHYLIP ili UniProtKB/Swiss-Prot (samo proteini) mogu se koristiti u većini alata. Molimo pogledajte stranice za unos pojedinačnih alata. Neispravan format unosa jedan je od najčešćih razloga neuspjeha posla.

Kakav izlaz alata mogu očekivati?

Molimo pogledajte stranice pojedinačnih izlaza alata.

Kako da preuzmem poravnanje?

Najbrži način za preuzimanje poravnanja je da kliknete na dugme 'Preuzmi datoteku poravnanja' na kartici poravnanja u rezultatima. Možete vidjeti sve datoteke koje su proizvedene na kartici 'Rezultati Summary', koja uključuje izlaz alata i sve datoteke stabla vodiča, kao i datoteku za poravnanje.

Kako da sačuvam poravnanje u boji?

Postoji nekoliko načina na koje možete sačuvati datoteku u boji.

1. Najočiglednije je da snimite poravnanje na ekranu i odštampate u pdf ili sačuvate kao sliku visoke rezolucije.
2. Nakon što dobijete svoje rezultate, odaberite sažetak rezultata i ako vaš pretraživač dozvoljava vezu do Jalviewa, možete koristiti ovaj alat da predstavite mnoge formate boja i spremite ih kao pdf, png, itd. Ako vaš preglednik ne dozvoljava vezu, možete idite na Jalview web stranicu i odatle koristite alat.
3. EMBOSS paket alata uključuje Prettyplot koji se može koristiti za preuzimanje, bojanje i spremanje poravnanja u pdf ili png Mi ne hostiramo ovu uslugu na EBI i nismo u mogućnosti pružiti korisničku podršku za to.
4. Za više opcija bojanja možete odabrati Mview

Kako mogu vidjeti filogenetsko stablo?

Podaci o stablu mogu se sačuvati klikom na dugme 'Prikaži datoteku filogetskog stabla' ili klikom na vezu stabla na kartici Rezime rezultata. Koristeći ove podatke možete ponovo kreirati stablo u bilo kojem softveru za pregled stabla koji uzima podatke stabla u Newick formatu.

Slika stabla se ne može direktno sačuvati jer je dinamički interfejs koji pokreće Java, međutim možete napraviti snimak ekrana i zatim ga sačuvati u programu za uređivanje slika, ili kao što je gore pomenuto koristiti podatke stabla da ponovo kreirate stablo u drugom programu za pregled stabla i sačuvaj ga odatle.
Top

Kako mogu vidjeti svoje stablo nakon što sam ga preuzeo?

Podaci o stablu su u široko korištenom Newick formatu, postoji nekoliko dostupnih online ili samostalnih programa za pregled stabla koji to mogu uzeti i ponovo kreirati stablo od ovih podataka.

Šta je matrica zamjene?

Matrica zamjene opisuje brzinu kojom se jedan znak u nizu mijenja u stanje drugih znakova tokom vremena, vidi više

Šta je matrica udaljenosti?

Matrice udaljenosti se koriste u filogeniji kao neparametarske metode udaljenosti i prvobitno su primijenjene na fenetičke podatke koristeći matricu udaljenosti u paru. Ove udaljenosti se zatim usklađuju kako bi se dobilo stablo (filogram, sa informativnim dužinama grana). Vidjeti više.

Koju matricu udaljenosti/supstitucije trebam koristiti?

Postoji nekoliko matrica udaljenosti koje se mogu koristiti (odabrati) prilikom izvođenja pretraživanja sekvence ili poravnanja sekvence. Najrasprostranjenija matrica udaljenosti (supstitucije) je BLOSUM62, ali su popularne i PAM matrice. Sljedeća publikacija detaljno opisuje koje faktore treba uzeti u obzir pri odabiru matrice zamjene:

Pearson WR. Odabir prave matrice za bodovanje sličnosti. Aktuelni protokoli u bioinformatici. 201343:3.5.1-3.5.9. doi:10.1002/0471250953.bi0305s43. http://europepmc.org/articles/PMC3848038

Na šta se odnosi procentualni identitet?

Vrijednost procenta identiteta je jedan brojčani rezultat određen za svaki par poravnatih sekvenci. Mjeri broj identičnih ostataka („šibica“) u odnosu na dužinu poravnanja. Kao što je prikazano u matrici (PIM), realni brojevi pokazuju 2 decimale. Broj pokazuje postotak razlike između dvije sekvence (iako se to može razlikovati između različitih pregledača stabala). Rezultat od 0,01 znači da postoji razlika od 1% između dvije sekvence.

Imajte na umu da različiti programi za poravnanje mogu izračunati i prijaviti procentualni identitet sekvence na različite načine. Obično je programer/istraživač imao poseban pogled na to kako tretirati praznine i druge regije višestrukog poravnanja sekvenci. Sljedeća publikacija Raghave i Bartona, 2006. (https://europepmc.org/abstract/MED/16984632), pokušava raspravljati o tome kako bi to moglo biti problem pri tumačenju rezultata PIM-a.

Šta znače rezultati prikazani u filogenetskom stablu?

Rezultati prikazani u filogenetskom stablu (ili dendrogramu) proizvedenom kao rezultat višestrukog poravnanja sekvenci (MSA), odgovaraju mjeri udaljenosti sekvence. Na neki način, vrijednosti prikazane u filogenetskom stablu (također) pokušavaju predstaviti "dužinu" grana, što ukazuje na evolucijsku udaljenost između sekvenci.

Uopšteno govoreći, način na koji većina MSA algoritama radi je da se svaki par ulaznih sekvenci poravna i koristi za izračunavanje parnog identiteta para. Tokom konstrukcije stabla, algoritam uzima poravnate sekvence i gradi matricu udaljenosti sekvence koja se zatim koristi da dođe do "optimalnog" stabla metodom grupiranja, tipično spajanjem susjeda (NJ) ili UPGMA (metoda neponderisane grupe s aritmetikom). Mean). Identiteti sekvence se pretvaraju u meru udaljenosti. Konačno, matrica udaljenosti se pretvara u stablo korištenjem metode grupisanja (NJ ili UPGMA). Nakon progresivnog poravnanja i od konačnog višestrukog poravnanja, ponovo se izračunavaju poparni identiteti svakog para sekvenci. Ovo proizvodi novu matricu udaljenosti, iz koje se procjenjuje novo stablo. Algoritam grupisanja koji se koristi često je spajanje susjeda, a ovo je stablo koje se daje kao izlaz. Pouzdanost izvršenog grupisanja se statistički testira procesom koji se naziva bootstrap, pri čemu se grupisanje izvodi 100 ili 1000 puta, vraćajući mjeru pouzdanosti.

Šta boje predstavljaju u poretku proteina?

OstatakBojaNekretnina
AVFPMILW RED Mali (mali + hidrofobni (uključujući aromatične -Y))
DE PLAVA Kisela
RK MAGENTA Osnovno - H
STYHCNGQ ZELENI Hidroksil + sulfhidril + amin + G
Drugi Siva Neobične amino/imino kiseline itd

Šta simboli konsenzusa predstavljaju u višestrukom poravnanju?

Znak * (zvjezdica) označava pozicije koje imaju jedan, potpuno očuvan ostatak.

A: (dvotočka) označava očuvanje između grupa vrlo sličnih svojstava kao što je dolje - otprilike ekvivalentno ocjenjivanju > 0,5 u matrici Gonnet PAM 250:

A . (tačka) označava očuvanje između grupa slabo sličnih svojstava kao u nastavku - otprilike ekvivalentno bodovanju =< 0,5 i > 0 u matrici Gonnet PAM 250:

Imajte na umu da je TV uključen u grupe sa slabijim bodovanjem uprkos tome što je postigao 0,0 u PAM 250 matrici, to je zato što je to prilično česta zamena jer su obe beta granane. U potpuno zakopanim ostacima to je po cijenu vodonične veze. U stvari, budući da je relativno nježna, ova zamjena je korištena u prošlosti za pravljenje TS mutanata. (Informacije ljubaznošću Tobyja Gibsona).

Isti simboli se prikazuju za DNK/RNA poravnanja, pa dok su znakovi * (zvjezdica) i dalje korisni, ostale znakove treba zanemariti za DNK/RNA poravnanja.

Šta simboli konsenzusa predstavljaju u parnom poravnanju?

Poravnanja u parovima se generišu pomoću alata kao što su EMBOSS Needle, Water, Stretcher i Matcher. Oznaka za poravnanje ističe gdje se sekvence ne podudaraju, gdje su praznine, identične ili slične.

Općenito, red za označavanje koristi razmak za neusklađenost ili prazninu, '.' za bilo koji mali pozitivan rezultat, ':' za sličnost koja ima više od 1,0 i '|' za identitet gdje obje sekvence imaju isti ostatak bez obzira na njegov rezultat ('W' koji odgovara 'W' ima mnogo više rezultata od 'L' koji odgovara 'L' jer je konzervirani triptofan značajniji od konzerviranog leucina).

'markx' skup formata za poravnanje (proizveden od FASTA paketa programa koje je napisao Bill Pearson) koristi '.' za sličnost i ':' za identitet. '|' znak se ne koristi. Ovo je dizajnerska odluka koju je donio Bill Pearson kada je pisao FASTA programe.

Detaljan pregled različitih formata dat je u EMBOSS dokumentaciji, koja je dostupna na http://emboss.sourceforge.net/docs/themes/AlignFormats.html

Šta velika i mala slova predstavljaju u rezultatima konsenzusa?

Mala slova se koriste za neusklađene ostatke. Više informacija dostupno je u ovoj publikaciji.

Kako mogu vidjeti svoje rezultirajuće višestruko poravnanje (MSA) sa Jalviewom?

Informacije o tome kako učitati rezultate MSA programa na Jalview dostupne su na sljedećoj stranici dokumentacije.

Čemu odgovaraju kazne za gap (otvaranje praznine, proširenje gapa, itd.)?

Kazne za praznine se generalno odnose na kaznu koja se oduzima od rezultata poravnanja koji se izračunava tokom skupa za poravnanje sekvence kao što je izvedeno programima za višestruko poravnanje sekvenci (MSA) i za poravnanje u paru (PSA). Na primjer, Clustal Omega definira da Kazna otvaranja praznina ima kaznu za otvaranje praznine u poravnanju, što čini praznine manje čestim za povećanje vrijednosti otvaranja jaza. Kazna za produženje praznine odgovara kazni za produženje praznine za jedan ostatak. Povećanjem ove vrijednosti praznine će biti kraće. Postoje neki MSA programi koji također definiraju kazne terminalnog razmaka (primjer Kalign), koje odgovaraju kaznom dodavanja dodatnih praznina na C- ili N-kraju sekvenci. Svaki alat ima sopstvenu implementaciju i pragove kazne Gap-a, molimo pogledajte odgovarajući web obrazac ili stranicu web-servisa za pojedinačne alate.

Koja je razlika između alata za globalno poravnanje i lokalnog poravnanja?

Alati za globalno poravnanje kreiraju poravnanje od kraja do kraja sekvenci koje treba poravnati, dok alati za lokalno poravnanje pronalaze jedno ili više poravnanja koja opisuju najsličniju regiju(e) unutar sekvenci koje treba poravnati.


Sadržaj

Postojale su mnoge varijacije softvera Clustal, a sve su navedene u nastavku:

  • Clustal: Originalni softver za višestruka poravnanja sekvenci, kreiran od strane Des Higginsa 1988. godine, bio je zasnovan na izvođenju filogenetskih stabala iz parnih sekvenci aminokiselina ili nukleotida. [3]
  • ClustalV: Druga generacija Clustal softvera objavljena je 1992. godine i predstavlja prepravku originalnog Clustal paketa. Uveo je filogenetsku rekonstrukciju stabla na konačnom poravnanju, mogućnost kreiranja poravnanja iz postojećih poravnanja i opciju kreiranja stabala iz poravnanja koristeći metodu nazvanu Neighbor joining. [4]
  • ClustalW: Treća generacija, objavljena 1994. godine, znatno je poboljšana u odnosu na prethodne verzije. Poboljšao je algoritam progresivnog poravnanja na različite načine, uključujući omogućavanje da se pojedinačne sekvence ponderišu ili povećaju u skladu sa sličnošću ili divergencijom u delimičnom poravnanju. Takođe je uključivao mogućnost pokretanja programa u batch modu iz komandne linije. [3]
  • ClustalX: Ova verzija, objavljena 1997. godine, prva je imala grafičko korisničko sučelje. [5]
  • ClustalΩ (Omega): Trenutna standardna verzija. [6][7]
  • Clustal2: Ažurirane verzije i ClustalW i ClustalX sa većom preciznošću i efikasnošću. [8]

Radovi koji opisuju klastalni softver su veoma citirani, a dva od njih su među najcitiranijim radovima svih vremena. [9]

Novija verzija softvera dostupna za Windows, Mac OS i Unix/Linux. Također se obično koristi putem web sučelja na vlastitoj početnoj stranici ili hostira Evropski institut za bioinformatiku.

Porijeklo imena Uredi

Stablo vodiča u početnim programima je konstruisano preko UPGMA grozder analysis parnih poravnanja, otuda i naziv CLUSTAL. [10] up. [11] Prve četiri verzije 1988. imale su arapske brojeve (1 do 4), dok je sa petom verzijom Des Higgins prešao na rimski broj V 1992. [10] up. [12] [4] Godine 1994. i 1997., za naredne dvije verzije, korištena su slova iza slova V i napravljena da odgovaraju W za Weighted i X za X Window. [10] up. [13] [5] Ime omega je odabrano da označi promjenu u odnosu na prethodne. [10]

Sve varijacije softvera Clustal poravnavaju sekvence koristeći heuristiku koja progresivno gradi višestruko poravnanje sekvenci iz serije poravnanja u paru. Ova metoda radi tako što analizira sekvence u cjelini, a zatim koristi UPGMA/Neighbor-joining metodu za generiranje matrice udaljenosti. Vodeće stablo se zatim izračunava iz rezultata sekvenci u matrici, a zatim se koristi za izgradnju višestrukog poravnanja sekvenci progresivnim poravnavanjem sekvenci po redosledu sličnosti. [14] U suštini, Clustal kreira višestruka poravnanja niza kroz tri glavna koraka:

  1. Napravite poravnanje u paru koristeći metodu progresivnog poravnanja
  2. Kreirajte stablo vodiča (ili koristite stablo koje definira korisnik)
  3. Koristite stablo vodiča da izvršite višestruko poravnanje

Ovi koraci se izvode automatski kada odaberete "Do Complete Alignment". Druge opcije su "Uradite poravnanje iz stabla vodiča i filogenije" i "Proizvedite samo stablo vodiča".

Input/Output Edit

Ovaj program prihvata širok spektar ulaznih formata, uključujući NBRF/PIR, FASTA, EMBL/Swiss-Prot, Clustal, GCC/MSF, GCG9 RSF i GDE.

Izlazni format može biti jedan ili više od sljedećeg: Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE ili NEXUS.

sa rezultatom većim od .5 na PAM 250 matrici

sa rezultatom manjim ili jednakim .5 na PAM 250 matrici

Isti simboli su prikazani i za poravnanje DNK/RNA i za poravnanje proteina, pa dok su simboli * (zvjezdica) korisni za oba, ostale simbole konsenzusa treba zanemariti za DNK/RNA poravnanje.

Postavke Uredi

Mnoge postavke se mogu mijenjati kako bi se algoritam poravnanja prilagodio različitim okolnostima. Glavni parametri su kazna za otvaranje praznine i kazna za produženje praznine.

Kratak sažetak Edit

Originalni program u Clustal seriji softvera razvijen je 1988. godine kao način da se generiše višestruka poravnanja sekvenci na personalnim računarima. ClustalV je objavljen 4 godine kasnije i uvelike je poboljšao original, dodajući i mijenjajući nekoliko ključnih karakteristika, uključujući prebacivanje na pisanje na C umjesto na Fortranu kao njegov prethodnik.

Algoritam Edit

Obje verzije koriste isti brzi aproksimativni algoritam za izračunavanje rezultata sličnosti između sekvenci, što zauzvrat proizvodi poravnanja u paru. Algoritam radi tako što izračunava rezultate sličnosti kao broj podudaranja k-torki između dvije sekvence, uzimajući u obzir postavljenu kaznu za praznine. Što su sekvence sličnije, to je rezultat veći, što se više divergentnije, to su niži rezultati. Nakon što se sekvence ocjenjuju, dendrogram se generiše kroz UPGMA koji predstavlja redoslijed višestrukog poravnanja sekvenci. Najprije se poravnavaju skupovi sekvenci višeg reda, a zatim ostali u opadajućem redoslijedu. Algoritam dozvoljava vrlo velike skupove podataka i radi brzo. Međutim, brzina ovisi o rasponu za k-torke podudaranja odabranih za određeni tip sekvence. [15]

Značajna poboljšanja ClustalV-a Uredi

Neki od najznačajnijih dodataka u ClustalV-u su poravnanje profila i potpune opcije interfejsa komandne linije. Mogućnost korištenja poravnanja profila omogućava korisniku da poravna dva ili više prethodnih poravnanja ili sekvenci s novim poravnanjem i pomjeri neusklađene sekvence (nisko ocijenjene) dalje niz redoslijed poravnanja. Ovo korisniku daje mogućnost da postepeno i metodično kreira višestruka poravnanja sekvenci sa većom kontrolom od osnovne opcije. [14] Opcija pokretanja iz komandne linije uvelike ubrzava proces poravnanja višestrukih sekvenci. Sekvence se mogu pokrenuti jednostavnom komandom,

a program će odrediti koju vrstu sekvence analizira. Kada je program završen, izlaz višestrukog poravnanja sekvenci kao i dendrogram idu u datoteke sa .aln i .dnd ekstenzijama. Interfejs komandne linije koristi zadane parametre i ne dozvoljava druge opcije. [15]

Kratak sažetak Edit

ClustalW kao i drugi Clustal alati se koristi za efikasno usklađivanje višestrukih nukleotidnih ili proteinskih sekvenci. Koristi metode progresivnog poravnanja, koje prvo poravnavaju najsličnije sekvence i spuštaju se do najmanje sličnih sekvenci dok se ne stvori globalno poravnanje. ClustalW je algoritam baziran na matrici, dok su alati kao što su T-Coffee i Dialign zasnovani na konzistentnosti. ClustalW ima prilično efikasan algoritam koji se dobro takmiči sa drugim softverom. Ovaj program zahteva tri ili više sekvenci da bi se izračunalo globalno poravnanje, za parno poravnanje sekvence (2 sekvence) koristite alate slične EMBOSS, LALIGN.

Algoritam Edit

ClustalW koristi metode progresivnog poravnanja kao što je gore navedeno. U njima se prvo poravnavaju sekvence s najboljim rezultatom poravnanja, a zatim se progresivno poravnavaju sve udaljenije grupe sekvenci. Ovaj heuristički pristup je neophodan zbog potrebe za vremenom i memorijom za pronalaženje globalnog optimalnog rješenja. Prvi korak u algoritmu je izračunavanje grube matrice udaljenosti između svakog para sekvenci, poznatog i kao poravnanje sekvenci u paru. Sljedeći korak je metoda spajanja susjeda koja koristi središnje korijenje za kreiranje cjelokupnog stabla vodiča. [16] Proces koji koristi za ovo je prikazan na detaljnom dijagramu za metodu desno. Stablo vodiča se zatim koristi kao grubi šablon za generisanje globalnog poravnanja.

Vremenska složenost Uredi

ClustalW ima vremensku složenost od O ( N 2 ) )> zbog upotrebe metode spajanja susjeda. U ažuriranoj verziji (ClustalW2) postoji opcija ugrađena u softver za korištenje UPGMA koji je brži s velikim ulaznim veličinama. Oznaka komandne linije da biste je koristili umjesto spajanja susjeda je:

Na primjer, na standardnoj radnoj površini, pokretanje UPGMA na 10.000 sekvenci dalo bi rezultate za manje od minute, dok bi spajanje susjeda trajalo više od sat vremena. [17] Pokretanjem ClustalW algoritma sa ovim podešavanjem, štedi se značajna količina vremena. ClustalW2 također ima opciju korištenja iterativnog poravnanja za povećanje tačnosti poravnanja. Iako nije nužno brži ili efikasniji u smislu složenosti, povećanje tačnosti je dragocjeno i može biti korisno za manje veličine podataka. Ovo su različite zastavice komandne linije da se to postigne:

Prva opcija komandne linije precizira konačno poravnanje. Druga opcija uključuje shemu u korak progresivnog poravnanja algoritma. Treći specificira broj ciklusa iteracije gdje je zadana vrijednost postavljena na 3. [17]

Uređivanje tačnosti i rezultata

Algoritam koji ClustalW koristi daje skoro svaki put rezultat blizu optimalnog. Međutim, radi izuzetno dobro kada skup podataka sadrži sekvence s različitim stupnjevima divergencije. To je zato što u skupu podataka kao što je ovaj, stablo vodiča postaje manje osjetljivo na šum. ClustalW je bio jedan od prvih algoritama koji je kombinovao poravnanje u paru i globalno poravnanje u pokušaju da bude efikasan, i radio je, ali postoji gubitak u preciznosti koji drugi softver nema zbog toga.

ClustalW, u poređenju sa drugim MSA algoritmima, pokazao se kao jedan od najbržih, uz zadržavanje nivoa tačnosti. [18] Još mnogo toga treba poboljšati u poređenju sa konkurentima zasnovanim na konzistentnosti kao što je T-Coffee. Preciznost za ClustalW kada je testirana protiv MAFFT, T-Coffee, Clustal Omega i drugih MSA implementacija imala je najnižu tačnost za sekvence pune dužine. Imao je najmanji algoritam koji zahtijeva RAM memoriju od svih testiranih u studiji.[18] Iako je ClustalW zabilježio najniži nivo tačnosti među svojim konkurentima, ipak je zadržao ono što bi neki smatrali prihvatljivim. Došlo je do ažuriranja i poboljšanja algoritma koji su prisutni u ClustalW2 koji rade na povećanju preciznosti dok i dalje zadržavaju svoju veoma cijenjenu brzinu. [17]

Kratak sažetak Edit

ClustalΩ (alternativno napisano kao Clustal O i Clustal Omega) je brz i skalabilan program napisan u C i C++ koji se koristi za višestruko poravnanje sekvenci. Koristi seeded stabla vodiča i novi HMM motor koji se fokusira na dva profila za generiranje ovih poravnanja. [19] [20] Programu su potrebne tri ili više sekvenci da bi se izračunalo višestruko poravnanje sekvenci, za dvije sekvence koristite alate za poravnanje u paru (EMBOSS, LALIGN). Clustal Omega je zasnovana na konzistentnosti i široko se smatra jednom od najbržih onlajn implementacija svih alata za poravnanje višestrukih sekvenci i još uvek je visoko rangirana u preciznosti, i među algoritmima zasnovanim na konzistentnosti i matričnim algoritmima.

Algoritam Edit

Clustal Omega ima pet glavnih koraka za generiranje višestrukog poravnanja sekvenci. Prvi je stvaranje parnog poravnanja pomoću metode k-torke, također poznate kao metoda riječi. Ovo je, ukratko, heuristička metoda za koju nije zagarantovano da će pronaći optimalno rješenje poravnanja, ali je znatno efikasnija od metode dinamičkog programiranja poravnanja. Nakon toga, sekvence se grupišu koristeći modificiranu mBed metodu. [21] Metoda mBed izračunava razdaljinu u paru koristeći ugrađivanje sekvence. Nakon ovog koraka slijedi k-means metoda grupiranja. Zatim, stablo vodiča se konstruiše upotrebom UPGMA metode. Ovo je prikazano kao višestruki koraci stabla vodiča koji vode u jednu konačnu konstrukciju stabla vodiča zbog načina na koji UPGMA algoritam radi. U svakom koraku (svaki dijamant u dijagramu toka) se kombinuju najbliža dva klastera i ponavljaju sve dok se konačno stablo ne može proceniti. U završnom koraku, višestruko poravnanje se proizvodi pomoću HHAlign paketa iz HH-Suite-a, koji koristi dva profila HMM-a. Profil HMM je linearni stroj stanja koji se sastoji od niza čvorova, od kojih svaki približno odgovara poziciji (koloni) u poravnanju od kojeg je izgrađen. [22]

Vremenska složenost Uredi

Tačan način izračunavanja optimalnog poravnanja između N sekvence ima računsku složenost od O ( L N ) )> za N sekvence dužine L što ga čini nedopustivim čak i za mali broj sekvenci. Clustal Omega koristi modificiranu verziju mBed-a koja ima složenost O ( N log ⁡ N ) , [21] [23] i proizvodi stabla vodiča koja su jednako precizna kao i ona iz konvencionalne metode. Brzina i tačnost stabala vodiča u Clustal Omega pripisuje se implementaciji modificiranog mBed algoritma. Takođe smanjuje potrebe za računarskim vremenom i memorijom za završetak poravnanja na velikim skupovima podataka.

Tačnost i rezultati Uredi

Preciznost Clustal Omega na malom broju sekvenci je, u prosjeku, vrlo slična onome što se smatra visokokvalitetnim sekvencama za poravnavanje. Razlika dolazi kada se koriste veliki skupovi podataka sa stotinama hiljada sekvenci. U ovim slučajevima, Clustal Omega nadmašuje druge algoritme širom sveta. Njegovo vrijeme završetka i ukupni kvalitet su konstantno bolji od ostalih programa. [24] Sposoban je da pokrene 100.000+ sekvenci na jednom procesoru za nekoliko sati.

Clustal Omega koristi HHAlign paket HH-Suite-a, koji poravnava dva profila skrivenih Markov modela umjesto poređenja profila i profila. Ovo značajno poboljšava kvalitet osjetljivosti i poravnanja. [24] Ovo, u kombinaciji sa mBed metodom, daje Clustal Omega prednost u odnosu na druge poravnače sekvenci. Rezultati su na kraju vrlo precizni i vrlo brzi što je optimalna situacija.

Na skupovima podataka sa nekonzerviranim terminalnim bazama, Clustal Omega može biti precizniji od Probcons i T-Coffee uprkos činjenici da su oba algoritma zasnovana na konzistentnosti, za razliku od Clustal Omega. Na testu efikasnosti sa programima koji daju visoke rezultate tačnosti, MAFFT je bio najbrži, a odmah iza njega Clustal Omega. Oba su bila brža od T-Coffee-a, međutim, MAFFT i Clustal Omega su zahtijevali više memorije za rad. [18]

Clustal2 je upakovano izdanje i ClustalW iz komandne linije i grafičkog Clustal X. Niti jedan nije novi alat, već su ažurirane i poboljšane verzije prethodnih implementacija koje smo vidjeli gore. Oba preuzimanja dolaze unapred kompajlirana za mnoge operativne sisteme kao što su Linux, Mac OS X i Windows (i XP i Vista). Ovo izdanje je dizajnirano kako bi web stranica bila organiziranija i lakša za korištenje, kao i ažuriranje izvornih kodova na njihove najnovije verzije. Clustal2 je verzija 2 i ClustalW i ClustalX, odakle je i dobio ime. Prethodne verzije se i dalje mogu pronaći na web stranici, međutim, svaka predkompilacija je sada ažurirana.


Pregledanje dugog višestrukog poravnanja¶

Ako želite da vidite dugo višestruko poravnanje, zgodno je da vidite višestruko poravnanje u blokovima.

R funkcija “printMultipleAlignment()” u nastavku će učiniti ovo umjesto vas:

Kao svoje ulaze, funkcija “printMultipleAlignment()” uzima ulazno poravnanje i broj kolona za ispis u svakom bloku.

Na primjer, za ispis višestrukog poravnanja virusnih fosfoproteina (koje smo pohranili u varijabilnu virusaln, vidi gore) u blokove od 60 kolona upisujemo:


Rezultati

Simulirani skupovi podataka sekvence

Simulirali smo skupove podataka o sekvenci proteina pod različitim realističnim evolucijskim scenarijima koristeći kombinaciju nekoliko parametara simulacije. Prvo smo generisali ansambl filogenetskih stabala u procesu rođenja koji varira 1) visinu stabla, 2) frakciju uzorkovanja i 3) broj taksona. Prateći Hanson-Smith et al. (2010), odabrali smo ultrametrička stabla kako bismo dodali veću kontrolu nad ASR uslovima, izbjegavajući pristranosti koje unose različite dužine grana jer bi kraće grane mogle utjecati na rekonstrukciju stanja predaka. Ovo uklanja nesigurnost iz problema i čini efekte na različitim dubinama u stablima razumljivijima. Varijacija frakcije uzorkovanja utiče na oblik drveta (kao što je prikazano na dodatnoj slici S1, Dodatni materijal na mreži) i može se smatrati modeliranjem izumiranja, tako da je udio uzorkovanja vjerovatnoća da će bilo koja vrsta preživjeti izumiranje (Yang i Rannala 1997), ili da modelirati istraživačku strategiju uzorkovanja taksona (Nee et al. 1994). Vrijednosti frakcije uzorkovanja odabrane su da predstavljaju različite oblike stabala koji pokrivaju realne slučajeve. Niži udio uzorkovanja daje više topologija poput zvijezde. Visina stabla predstavlja očekivani broj zamjena po mjestu od korijena do vrha, odabrali smo visinu stabla od 0,8 kako bismo odražavali realne slučajeve iz procjena stabala amniota (izvedeno iz Ensembl Compara, Vilella et al. 2009), a također smo proučavali veće visine kako bismo pokazali metode ' učinak izvan ovog slučaja.

Na svakom stablu, evolucija proteinske sekvence je simulirana prema WAG modelu (Whelan i Goldman 2001) koristeći dvije različite stope indeliranja. Vrijednosti parametara odabrane su iz prethodnih studija kako bi predstavljale realistične scenarije evolucije proteina (Whelan et al. 2003 Whelan et al. 2006 Levy Karin et al. 2015 Md Mukarram Hossain et al. 2015. vidi materijale i metode za detalje). Testirali smo stope indela od 0,01 i 0,05, inspirisane opažanjima u amniotu (Westesson et al. 2012) i genima sisara (Cooper et al. 2004). Za svaku simulaciju, snimili smo simulirane sekvence na vrhovima, pravo poravnanje i pravi niz predaka za svaki unutrašnji čvor.

U tabeli 2 prikazan je raspon vrijednosti korištenih parametara simulacije. Ukupno su analizirana 72 scenarija (36 konfiguracija stabla pod dvije stope indeliranja), uključujući gradijent težine za MSA.

Parametri za simulacije podataka.

Parametar . Vrijednost.
Broj taksona a 16 | 32 | 64
Frakcija uzorkovanja drveta a 0.01 | 0.25 | 0.99
Visina stabla a 0.8 | 1.0 | 1.2 | 2.0
Stope nataliteta i smrti a Rođenje: 6 Smrt: 3
Indel stopa b ,c 0.01 | 0.05
Dužina korijena b 408 aa
Supstitucijski model b WAG + Γ (α = 1,8, 4 kategorije) d
Raspodjela dužine indela b Potencijski zakon sa konstantnim faktorom 1,7 i maksimalnom dužinom od 20
Parametar . Vrijednost.
Broj taksona a 16 | 32 | 64
Frakcija uzorkovanja drveta a 0.01 | 0.25 | 0.99
Visina stabla a 0.8 | 1.0 | 1.2 | 2.0
Stope nataliteta i smrti a Rođenje: 6 Smrt: 3
Indel stopa b ,c 0.01 | 0.05
Dužina korijena b 408 aa
Supstitucijski model b WAG + Γ (α = 1,8, 4 kategorije) d
Raspodjela dužine indela b Potencijski zakon sa konstantnim faktorom 1,7 i maksimalnom dužinom od 20

Napomena .— Simulacije podataka su izvedene korištenjem 72 kombinacije datih parametara. Parametri odvojeni sa “|” predstavljaju vrijednosti koje se koriste u različitim kombinacijama. Za svaku kombinaciju, deset stabala je generirano pomoću evolver-a (Yang 2007) i, za svako stablo, deset nizova podataka o sekvenci generirano je korištenjem INDELible-a (Fletcher i Yang 2009).

Parametri gustine BD kernela za simulaciju filogenetskog stabla (evolver).

Parametri za simulaciju proteinske sekvence (INDELable).

Stope umetanja i brisanja su u odnosu na prosječnu stopu zamjene od 1. Stope umetanja i brisanja su jednake.

+ Γ: uključujući varijaciju brzine kako je opisano gama distribucijom (Yang 1994).

Parametri za simulacije podataka.

Parametar . Vrijednost.
Broj taksona a 16 | 32 | 64
Frakcija uzorkovanja drveta a 0.01 | 0.25 | 0.99
Visina stabla a 0.8 | 1.0 | 1.2 | 2.0
Stope nataliteta i smrti a Rođenje: 6 Smrt: 3
Indel stopa b ,c 0.01 | 0.05
Dužina korijena b 408 aa
Supstitucijski model b WAG + Γ (α = 1,8, 4 kategorije) d
Raspodjela dužine indela b Potencijski zakon sa konstantnim faktorom 1,7 i maksimalnom dužinom od 20
Parametar . Vrijednost.
Broj taksona a 16 | 32 | 64
Frakcija uzorkovanja drveta a 0.01 | 0.25 | 0.99
Visina stabla a 0.8 | 1.0 | 1.2 | 2.0
Stope nataliteta i smrti a Rođenje: 6 Smrt: 3
Indel stopa b ,c 0.01 | 0.05
Dužina korijena b 408 aa
Supstitucijski model b WAG + Γ (α = 1,8, 4 kategorije) d
Raspodjela dužine indela b Potencijski zakon sa konstantnim faktorom 1,7 i maksimalnom dužinom od 20

Napomena .— Simulacije podataka su izvedene korištenjem 72 kombinacije datih parametara. Parametri odvojeni sa “|” predstavljaju vrijednosti koje se koriste u različitim kombinacijama. Za svaku kombinaciju, deset stabala je generirano pomoću evolver-a (Yang 2007) i, za svako stablo, deset nizova podataka o sekvenci generirano je korištenjem INDELible-a (Fletcher i Yang 2009).

Parametri gustine BD kernela za simulaciju filogenetskog stabla (evolver).

Parametri za simulaciju proteinske sekvence (INDELable).

Stope umetanja i brisanja su u odnosu na prosječnu stopu zamjene od 1. Stope umetanja i brisanja su jednake.

+ Γ: uključujući varijaciju brzine kako je opisano gama distribucijom (Yang 1994).

Procijenjeni MSA-ovi i predački nizovi

Poravnali smo sekvence vrhova iz simuliranih skupova podataka iznad koristeći svaki MSA alat naveden u tabeli 1. Alajneri koji dozvoljavaju korisnički specificirana stabla vodiča dodatno su procijenjeni ovom opcijom koristeći pravo stablo. Takvu upotrebu opcionog vodiča označavamo zvjezdicom (npr. PAGAN*).

Stanja znakova u čvorovima predaka rekonstruirana su iz MSA svakog poravnavača koristeći FastML (Ashkenazy et al. 2012). Pravo poravnanje sekvenci na vrhovima, kao što je simulirano, korišteno je za uspostavljanje osnovne linije. Specificiramo istinito stablo, model zamjene i stope korištene u simulaciji tokom rekonstrukcije kako bismo izolirali utjecaj MSA alata i izbjegli predrasude uzrokovane, na primjer, nepreciznostima u metodama filogenetskog zaključivanja (imajte na umu da je ovo neovisno o korištenju istinitog stablo kao stablo vodilja u MSA alatima, koje se posebno vrednuje).

Preciznost rekonstrukcije na različitim scenarijima

Preciznost rekonstruisane sekvence unutrašnjeg čvora do odgovarajućeg pravog niza izmerena je korišćenjem rezultata zasnovanog na metodi Paten et al. (2008). Rezultat se kreće od nula do jedan, što predstavlja proporciju parno poređanih lokacija koje su ispravno poravnate, a savršeno podudaranje ima ocjenu jedan (pogledajte Materijali i metode za više detalja).

Prvo smo analizirali ukupne trendove tačnosti svakog MSA alata za svaki scenario. Slika 1 prikazuje distribuciju tačnosti za visine stabla 0,8 i 1,0, snimljene za svaki alat preko svih rekonstruisanih internih čvorova i uključujući sve sekvence i replikacije stabala (100 replika za svaki scenario, koji se sastoji od deset replika stabla sa deset simuliranih poravnanja za svako stablo). Stoga je broj čvorova u svakoj distribuciji jednak broju unutrašnjih čvorova u ukorijenjenom stablu (#taxa—1) pomnoženom sa 100. Pronašli smo mnoge uslove u kojima je ASR postigao visoku preciznost (distribucije koncentrisane desno na x-os) i nekoliko razlika između metoda. Kod frakcije uzorkovanja 0,99, sve metode imaju odlične i gotovo jednake performanse (P vrijednost < 0,01, dopunska tabela S1, Dodatni materijal online). Smanjenje frakcije uzorkovanja na 0,25 blago smanjuje ukupnu tačnost, ali rezultati su i dalje slični u poređenju sa baznom linijom (rekonstrukcija koristeći pravo poravnanje). Razlike postaju evidentne sa frakcijom uzorkovanja od 0,01, stopom indeliranja od 0,05 i visinom stabla od 1,0, a posebno kada se kombinuju ovi teški uslovi. U takvim slučajevima počinjemo da uočavamo jasne razlike između alata, sa tačnostima iz procenjenih MSA znatno nižim od pravog poravnanja, a neki alati pokazuju posebno nisku tačnost za neke pretke čvorove, posebno FSA.

Točnost rekonstrukcije MSA alata za simulirane scenarije pod visinama stabala 0,8 i 1,0. Grafikoni pokazuju ukupnu distribuciju tačnosti za svaku kombinaciju parametara koristeći visine stabla od 0,8 i 1,0. Plave tačke označavaju medijanu, a crvene tačke označavaju srednju vrednost.

Točnost rekonstrukcije MSA alata za simulirane scenarije pod visinama stabala 0,8 i 1,0. Grafikoni pokazuju ukupnu distribuciju tačnosti za svaku kombinaciju parametara koristeći visine stabla od 0,8 i 1,0. Plave tačke označavaju medijanu, a crvene tačke označavaju srednju vrednost.

U zahtjevnijim uvjetima simulacije primijetili smo intenziviranje trendova izazvanih svakim MSA alatom. Slika 2 prikazuje raspodjelu tačnosti za simulacije sa visinama stabala od 1,2 i 2,0, gdje nalazimo da metode imaju loš učinak. U najtežim slučajevima (npr. stopa indeliranja 0,05, visina stabla 2,0 i frakcija uzorkovanja 0,01), vidimo tačnost općenito ispod 0,3 za sve MSA metode, znatno ispod osnovnih vrijednosti dobivenih korištenjem pravog poravnanja (P vrijednost < 0,01, dopunska tabela S1, Dodatni materijal online). Općenito, primjećujemo da su simulacije sa udjelom uzorkovanja od 0,99 (kasnije divergencije) lakše rješive: čak iu najzahtjevnijim situacijama (stopa indeliranja 0,05 i visina stabla >gt 1,0), tačnost rekonstrukcije je visoka (>0,7 u prosjeku). Niža stopa indeliranja od 0,01 također rezultira dobrim performansama (osim kada se kombinuje sa najtežom visinom stabla od 2,0 i udjelom uzorkovanja od 0,01), kao i niža visina stabla. Povećanje broja taksona dovodi do skromnog poboljšanja sveukupne tačnosti.

Točnost rekonstrukcije MSA alata za simulirane scenarije pod visinama stabala 1,2 i 2,0. Grafikoni pokazuju ukupnu distribuciju tačnosti za svaku kombinaciju parametara koristeći visine stabla od 1,2 i 2,0. Plave tačke označavaju medijanu, a crvene tačke označavaju srednju vrednost. Označeni dijagram (crveni okvir) ukazuje na scenario sa stablima od 64 taksona, visinom stabla 1,2, udjelom uzorkovanja 0,01 i stopom indeliranja 0,05, što je dalje istraženo na slikama 4-6 i 8.

Točnost rekonstrukcije MSA alata za simulirane scenarije pod visinama stabala 1,2 i 2,0. Grafikoni pokazuju ukupnu distribuciju tačnosti za svaku kombinaciju parametara koristeći visine stabla od 1,2 i 2,0. Plave tačke označavaju medijanu, a crvene tačke označavaju srednju vrednost. Označeni dijagram (crveni okvir) ukazuje na scenario sa stablima od 64 taksona, visinom stabla 1,2, frakcijom uzorkovanja 0,01 i stopom indeliranja 0,05, što je dalje istraženo na slikama 4-6 i 8.

Preciznost kao funkcija izbora pojedinačnih parametara, sažeta preko svih ostalih uslova i svih poravnava, prikazana je na dodatnoj slici S3, Dodatni materijal na mreži. Uzeti u kombinaciji sa slikama 1 i 2, oni potvrđuju naša očekivanja o tome koje karakteristike čine dati ASR problem više ili manje teškim. S obzirom na povećane informacije koje su dostupne zbog postojanja više postojećih sekvenci, stabla s više taksona pokazuju nešto veću tačnost rekonstrukcije. Frakcija uzorkovanja drastično utječe na točnost, s većom frakcijom (kasnije divergencije) što daje preciznije rekonstrukcije. Ovo odražava bliskost unutrašnjih čvorova i nizova listova što olakšava poravnanje. Visina stabla je također kritična varijabla, s dužim stablima (divergentnijim nizovima) koji predstavljaju teže scenarije i manju preciznost rekonstrukcije. Niža stopa indela od 0,01 proizvela je veću preciznost od stope od 0,05: sekvence sa nekoliko indela je očigledno lakše uskladiti, što zauzvrat dovodi do boljih ASR performansi.

Poređenja u paru između MSA metoda omogućila su nam da izračunamo broj scenarija pod kojima su se MSA alati značajno razlikovali, pružajući pregled njihovih performansi u više uslova (slika 3). U slučajevima u kojima su uočene razlike, rekonstrukcije pomoću pravog poravnanja (osnovne linije) dovele su do boljih rezultata (veća medijana tačnosti) od MSA alata (slika 3, gornji red). Među MSA alatima, PRANK koristeći stablo vodiča (PRANK* i PRANK + F*) postigao je najbolje rezultate po ovoj mjeri, pokazujući značajne razlike u poređenju sa bazom u 48 od 72 simulirana scenarija (67%). PRANK bez stabla vodiča (PRANK i PRANK + F) i MAFFT poravnači su se izveli slično kao i PRANK* varijante. Clustal Omega je pokazao najgore rezultate, pokazujući razlike u 57 od 72 scenarija (79%) FSA, PAGAN i MUSCLE su dali slične rezultate kao Clustal.

Broj scenarija sa statistički značajnim razlikama u ukupnoj tačnosti između svakog MSA. Točnosti rekonstrukcije dobivene svakim MSA alatom u 72 scenarija s različitim konfiguracijama parametara uspoređene su u paru korištenjem Mann-Whitney-Wilcoxon testa. Slika prikazuje broj scenarija sa značajnim razlikama (prilagođeno FDR-om P vrijednost < 0,01), gdje je unos u i-th red i j-ta kolona prikazuje metodu broj puta i bilo bolje od metode j (veća tačnost medijana).

Broj scenarija sa statistički značajnim razlikama u ukupnoj tačnosti između svakog MSA. Točnosti rekonstrukcije dobivene svakim MSA alatom u 72 scenarija s različitim konfiguracijama parametara uspoređene su u paru korištenjem Mann-Whitney-Wilcoxon testa. Slika prikazuje broj scenarija sa značajnim razlikama (prilagođeno FDR-om P vrijednost < 0,01), gdje je unos u i-th red i j-ta kolona prikazuje metodu broj puta i bilo bolje od metode j (veća tačnost medijana).

Primjena istih poređenja između rezultata iz različitih MSA pokazala je da su metode sličnije jedna drugoj nego što su bile rekonstrukciji osnovne linije koristeći pravo poravnanje (slika 3). Različite varijante istog MSA alata imale su tendenciju da rade slično (naročito, PRANK* i PRANK + F* razlikovali su se u samo 1 scenariju, a MUSCLE i MUSCLE* u samo 2). Također smo pronašli sličnosti između alata, na primjer, MAFFT E-INS-i je pokazao značajno drugačiju tačnost od PRANK + F u samo 19 scenarija (∼26%). Međutim, kada su te razlike bile prisutne, MAFFT je bilo bolje u 18 njih. Isto je uočeno i sa drugim kombinacijama. Općenito, MAFFT-ove INS-i varijante i PRANK varijante su imale bolje rezultate od ostalih alata FSA je imao najgore rezultate. Konačno, neki alati su pokazali uravnotežene trendove, na primjer, MAFFT FFT-NS-2 i MUSCLE su se značajno razlikovali u 34 scenarija (∼47%), a svaki alat je bio bolji u polovini njih.

Varijacija tačnosti rekonstrukcije duž drveća

Da bismo dalje istražili performanse metode, koncentrisali smo se na jedan skup uslova simulacije koji su pokazali kontrastne rezultate, sa nekim dobrim rekonstrukcijama, ali značajnim razlikama između MSA alata. Ispitivali smo simulacije sa stablima od 64 taksona, visine stabla 1,2, frakcije uzorkovanja 0,01 i stope indeliranja 0,05 (slika 2, označena dijagrama). Slika 4 prikazuje tačnost rekonstrukcije kao na odgovarajućem sumarnom dijagramu na slici 2, ali sada stratificiranu duž pravog stabla, prema udaljenosti svakog čvora od korijena (odgovarajuće brojke za druge uvjete simulacije dostupne su u dodatnoj dodatnoj datoteci S1, Dodatni materijal online). Analizirajući tačnost svih rekonstruisanih unutrašnjih čvorova (slika 4A), uočili smo da FSA, PRANK + F, PRANK, PAGAN i MAFFT FFT-NS-2 pokazuju najveću varijaciju u tačnosti rekonstrukcije sa više dispergovanih tačnosti duž stabala (dodatna tabela S2 , Dodatni materijal na mreži). Omogućavanje pravog stabla kao stabla vodiča alatima koji dozvoljavaju ovu opciju (PRANK*, PRANK + F*, PAGAN*, Clustal Omega* i MUSCLE*) smanjilo je ovu varijaciju.

Preciznost rekonstrukcije prema udaljenosti do korijena. Preciznost rekonstrukcije na različitim udaljenostima od korijena korištenjem parametara simulacije 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05. (A) Raspršene dijagrame tačnosti za svaki MSA. (B) Kombinovani grafikon koji prikazuje lokalno ponderisano izglađivanje dijagrama raspršenja (LOESS) prosječne tačnosti rekonstrukcije prema udaljenosti do korijena za svaki MSA alat.

Preciznost rekonstrukcije prema udaljenosti do korijena. Preciznost rekonstrukcije na različitim udaljenostima od korijena korištenjem parametara simulacije 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05. (A) Raspršene dijagrame tačnosti za svaki MSA. (B) Kombinovani grafikon koji prikazuje lokalno ponderisano izglađivanje dijagrama raspršenja (LOESS) prosječne tačnosti rekonstrukcije prema udaljenosti do korijena za svaki MSA alat.

Uspoređujući prosječnu preciznost duž stabla za svaki MSA alat (slika 4B), primijetili smo da su, sa izuzetkom FSA, svi lajneri imali sličan učinak za pretke blizu vrhova stabla (desno od x-osa) u poređenju sa rekonstrukcijom koristeći pravo poravnanje (bazna linija). Točnost se smanjuje krećući se duž stabla (kretanje lijevo na x-os, tj. prema korijenu) – dublje pretke je teže precizno rekonstruirati – ali imaju tendenciju ponovnog povećanja blizu korijena (sa izuzetkom Clustal Omega* i PAGAN*). Ovo povećanje se objašnjava utjecajem informacija koje prenose gušće uzorkovani čvorovi koncentrirani u korijenskom području, što je posljedica udjela uzorkovanja od 0,01 (za stope uzorkovanja od 0,25 i 0,99, tačnost se monotono smanjivala bliže korijenu vidi dodatnu sliku S4, Dodatni materijal na mreži).

Sve u svemu, razlike između MSA alata uočene na slici 4B pokazale su da MAFFT E-INS-i i MAFFT L-INS-i imaju najbolje performanse u čvorovima blizu korijena s preciznošću od približno 0,8 MUSCLE*, MUSCLE, PRANK* i PRANK + F* imaju tačnost oko 0,7 PRANK, PRANK + F, Clustal Omega i MAFFT FFT-NS-2 imaju tačnost blizu 0,6. Za čvorove srednje dubine (područje promjene nagiba, oko udaljenosti 0,4), vidimo tačnost u rasponu od 0,5 do preko 0,6 za većinu MSA alata, osim za FSA (tačnost od približno 0,2), PAGAN (0,4) i MAFFT FFT-NS- 2 (oko 0,45). Za čvorove blizu vrhova (udaljenost do korena 1,0–1,2), skoro svi alati su radili dobro, sa preciznošću većom od 0,8. MUSCLE varijante su bile nešto lošije, sa preciznošću oko 0,05 ispod ostalih alata u ovoj regiji, a FSA je imao najgore rezultate, brzo se smanjivši preciznost na ispod 0,6. Ove razlike pokazuju ne samo kako se svaki alat ponaša u odnosu na kumulativnu grešku uvedenu na svakom nivou duž stabla (od korijena do vrha, duž x-osa na sl. 4), ali i mogućnost korekcije iz metode rekonstrukcije u završnim fazama kada je dostupno više informacija. Uprkos generalno sličnim performansama na početnim čvorovima blizu vrhova, pokazalo se da je neslaganje uzrokovano MSA alatom u većini prastarih čvorova značajno.

Korištenje pravog stabla kao vodiča za MSA dovelo je do intrigantnih rezultata. Za PRANK varijante, korištenje stabla vodiča dosljedno je poboljšalo preciznost duž svih stabala (Mann-Whitney-Wilcoxon, P vrijednost < 0,01). Nasuprot tome, MUSCLE i MUSCLE* su dali bukvalno iste rezultate, ne pokazujući značajne razlike kada se koristi stablo vodiča. Za Clustal i PAGAN upotreba stabla vodiča poboljšala je preciznost u gotovo svim regijama, ali je značajno pogoršala performanse za čvorove blizu korijena.

Predrasude za umetanje i brisanje u rekonstruisanim sekvencama

Analizirali smo doprinos grešaka umetanja i brisanja mjeri tačnosti kako bismo otkrili specifične predrasude u MSA alatima. Greške umetanja i brisanja uključene su u mjeru tačnosti (pogledajte Materijali i metode) i predstavljaju postotak ostataka prisutnih (umetanje) ili neprisutnih (brisanje) u rekonstruiranom čvoru predaka u poređenju sa pravom sekvencom. Podsjetimo da bi ispravan ASR rezultirao ocjenama greške umetanja i brisanja od 0 (vidi gore). Opet, koncentrišući se na uslove simulacije u kojima su metode MSA imale kontrastne rezultate (64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05), otkrili smo pristranosti u svim alatima, uključujući rekonstrukcije zasnovane na pravom poravnanju (slika 5) . Greške pri brisanju (ucrtane na y-axis) bile su niske za većinu alata, a PRANK varijante su pokazale najgore rezultate. PRANK + F je imao nešto veći postotak greške pripisane brisanju u poređenju sa PRANK-om, a korištenje stabla vodiča rezultiralo je sličnim distribucijama. PAGAN* je također pokazao greške u brisanju neznatno veće od ostalih alata, ali niže od PRANK-a.

Distribucija metrike greške umetanja i brisanja. Dijagrami raspršivanja pokazuju metriku greške umetanja i brisanja za različite MSA metode, na osnovu parametara simulacije: 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05. Umetci su prikazani na x-os, brisanja na y-osa. Distribucija gustine za svaku osu je također ucrtana.

Distribucija metrike greške umetanja i brisanja. Dijagrami raspršivanja pokazuju metriku greške umetanja i brisanja za različite MSA metode, na osnovu parametara simulacije: 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05. Umetci su prikazani na x-os, brisanja na y-osa. Distribucija gustine za svaku osu je također ucrtana.

Za greške u umetanju (sl. 5, x-axis), uočili smo značajne pristranosti u nekim alatima. Po ovoj mjeri, varijante PRANK + F*, PRANK*, PRANK + F, MUSCLE i MAFFT-ove INS-i varijante su pokazale najbolje rezultate, sve sa ukupnim greškama umetanja ispod 0,2 (sa razlikama u disperziji). Drugi MSA alati su pokazali snažnu pristrasnost prema umetanjima, posebno FSA, koji je dao greške umetanja od >0,8 (tj. 80% dužine poravnanja u paru sastavljene od praznina u pravom nizu).

Pristrasnost prema insercijama rezultira dužim rekonstruisanim sekvencama (slika 6A). Međutim, gledajući višestruke dužine poravnanja iz svakog alata iz svih replika scenarija (100 ponavljanja: deset stabala i deset sekvenci za svako stablo), uticaj bilo kakvog balansa između grešaka umetanja i brisanja je nejasan (slika 6B). Iako gotovo svi MSA alati precjenjuju broj umetanja u usporedbi s brisanjem, dužine poravnanja ne pokazuju korelaciju s dužinama sekvenci predaka. Sve u svemu, kraća poravnanja od očekivanih, kao što su ona iz Clustal, MUSCLE i MAFFT, nisu izazvala kraće rekonstrukcije. Takve razlike mogu biti posljedica sklonosti date metode da uravnoteži dvije vrste grešaka: previše umetanja i preklapanje. Pod takvim uvjetima, očekuju se rijetka poravnanja (vidi pravo poravnanje, dodatna slika S5, Dodatni materijal na mreži) i PRANK, PAGAN i FSA prikazuju ovo svojstvo. Međutim, FSA regioni jaza mogu biti posljedica načina na koji se kažnjavaju preusmjerenja. Budući da FSA (podrazumevano) prestaje da poravna znakove kada je verovatnoća da je znak poravnat jednaka verovatnoći razmaka, to dovodi do pogrešnog umetanja (što rezultira nedovoljno poravnavanjem). U ovom kontekstu, poravnanja iz PRANK varijanti su bila konzistentnija sa simulacijama.

Rekonstruirane dužine sekvenci i dužine poravnanja. Raspodjela sekvenci i dužina poravnanja za svaku metodu poravnanja (parametri simulacije: 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01, stopa indeliranja 0,05). (A) Distribucija omjera rekonstruiranih i pravih dužina niza mjerenih za sve rekonstruirane čvorove. Vrijednosti veće od jedan predstavljaju rekonstruirane sekvence duže od očekivanog. (B) MSA distribucije dužine za svaku metodu mjerenu za svaku replikaciju scenarija (100: deset stabala i deset poravnanja za svako stablo).

Rekonstruirane dužine sekvenci i dužine poravnanja. Raspodjela sekvenci i dužina poravnanja za svaku metodu poravnanja (parametri simulacije: 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01, stopa indeliranja 0,05). (A) Distribucija omjera rekonstruiranih i pravih dužina niza mjerenih za sve rekonstruirane čvorove. Vrijednosti veće od jedan predstavljaju rekonstruirane sekvence duže od očekivanog. (B) MSA distribucije dužine za svaku metodu mjerenu za svaki scenario repliciraju (100: deset stabala i deset poravnanja za svako stablo).

Iako dužina poravnanja može dati neki uvid u performanse i korisnost za nizvodne analize različitih MSA metoda, njena tačna procjena sama po sebi nema posebnu vrijednost. Umjesto toga, sposobnost MAFFT INS-i, PRANK i MUSCLE varijanti da daju pojedinačne pretpostavljene sekvence predaka sa dužinama koje najviše liče na prave vrijednosti je važna mjera njihove superiorne performanse.

Poređenje tačnosti rekonstrukcije i MSA mjera kvaliteta

Usporedili smo tačnost rekonstrukcije s mjerama kvaliteta MSA. MSA mjere kvaliteta izračunate su korištenjem devol mjera od Metal (Blekburn i Whelan 2012) i sledeće rezultate iz Q-Score (Edgar 2004): Developer score (koji se naziva i SP-score, za zbir parova), rezultat Modelera, Total Column score i Cline Shift rezultat. Kao što je Metal rezultat predstavlja metriku greške (u rasponu od 0, što predstavlja bez greške, do 1, maksimalna greška), vrijednosti su oduzete od 1 da bi se proizvela mjera tačnosti, lakše povezana sa drugim metrikama. Slika 7 prikazuje dijagrame tačnosti rekonstrukcije u odnosu na mjere kvaliteta MSA za sva 72 simulacijska stanja. Za svaki scenarij, razmotrili smo prosječnu tačnost rekonstrukcije (pokrivajući sve čvorove unutar svih replika scenarija) i prosječan MSA kvalitet svih replika. Sve u svemu, mjere kvaliteta MSA dale su slične rezultate, pokazujući dobru korelaciju sa preciznošću rekonstrukcije sa vrijednostima koeficijenta determinacije (r 2 ) obično veći od 0,75 za većinu MSA alata i mjera kvaliteta. Izuzetak je bio TC skor, koji je pokazao nižu korelaciju (r 2 oko 0,60) u poređenju sa drugim mjerama kvaliteta.

Odnos između tačnosti rekonstrukcije i metrike kvaliteta MSA. Prosječna tačnost rekonstrukcije i prosječne ocjene kvaliteta MSA izračunate za svaki simulirani scenarij (72 scenarija) koristeći svaki MSA alat. MSA metrika kvaliteta opisana u tekstu izračunava se poređenjem MSA sa pravim simuliranim poravnanjem. Metal je korišten pod devol metrika koja odgovara rezultatu različitosti, pa su vrijednosti oduzete od 1 radi lakšeg poređenja. (r: Pearsonova korelacija r 2 : koeficijent determinacije).

Odnos između tačnosti rekonstrukcije i metrike kvaliteta MSA. Prosječna tačnost rekonstrukcije i prosječne ocjene kvaliteta MSA izračunate za svaki simulirani scenarij (72 scenarija) koristeći svaki MSA alat. MSA metrika kvaliteta opisana u tekstu izračunava se poređenjem MSA sa pravim simuliranim poravnanjem. Metal je korišten pod devol metrika koja odgovara rezultatu različitosti, pa su vrijednosti oduzete od 1 radi lakšeg poređenja. (r: Pearsonova korelacija r 2 : koeficijent determinacije).

Uočene su samo male razlike za specifične alignere. Najznačajniji od njih je Modeler skor, koji je dao anomalno visoke vrijednosti za FSA u poređenju sa drugim mjerama i alajnerima (slika 7, FSA dijagram). Ovo specifično odstupanje je posljedica načina na koji je modeler skor normaliziran, favorizirajući situacije neusklađenosti i zanemarujući indel regije za normalizaciju. Kako FSA proizvodi duga i rijetka poravnanja, čak i nekoliko ispravno zaključenih homologija, kada se podijele s nekoliko usklađenih regija, dovodi do viših rezultata. Iz tog razloga, rezultat Modelera se obično kombinuje sa SP-skorom (Developer) (Wang i Dunbrack 2004).

Uprkos općenito dobrim ukupnim korelacijama između mjera kvaliteta MSA i tačnosti rekonstrukcije u okviru specifičnih MSA alata, poređenje između metrika preko različitih alata za poravnanje, posebno u suprotnim scenarijima, pokazuje neke metrike kvaliteta poravnanja ortogonalne na pouzdanu rekonstrukciju. Slika 8 prikazuje prosječnu tačnost rekonstrukcije i mjere kvaliteta MSA za simulacije sa stablima od 64 taksona, visinom stabla 1,2, frakcijom uzorkovanja 0,01 i stopom indeliranja 0,05 (isti parametri koji su prethodno proučavani, slike 4-6). Primijetili smo da razlike u preciznosti rekonstrukcije među alatima (u plavoj boji) nisu zabilježene za neke metrike kvaliteta (u ružičastoj boji). Osim neslaganja Modeler/FSA, mogu se uočiti i druge razlike, posebno TC-score koji predstavlja neočekivane rezultate za mnoge MSA alate. Takve razlike pokazuju koliko dobro svaka metrika kvaliteta može obuhvatiti razlike uočene s preciznošću rekonstrukcije. Dakle, pod ovim uslovima simulacije (koji se smatraju izazovnim za rekonstrukciju), TC-skor daje najgora predviđanja tačnosti ASR (korelacija od 0,26), dok Metal (1 − devol) i mjere SP-skora su se najbolje pokazale (korelacija > 0,85).

MSA ocjene kvaliteta u poređenju sa preciznošću rekonstrukcije na različitim MSA alatima. Razlike mjera kvaliteta između MSA alata pod parametrima simulacije 64 taksona, visina stabla 1,2, udio uzorkovanja 0,01 i stopa indeliranja 0,05. MSA ocjene kvaliteta (ružičaste) predstavljaju vrijednosti za svaku replikaciju scenarija (deset stabala i deset poravnanja za svako stablo). Na svim dijagramima prikazane su tačnosti rekonstrukcije (plavo) za poređenje, koje predstavljaju očekivano ponašanje u smislu razlika između alata. Vrijednosti tačnosti rekonstrukcije mjerene su kao prosjek svih rekonstruiranih tačnosti čvorova u svakoj replici, i iste su u svakom grafikonu. MSA alati se naručuju prema sredstvima tačnosti rekonstrukcije (od najboljeg do najgoreg). Spearmanove rho korelacije između rezultata kvaliteta MSA i tačnosti rekonstrukcije prikazane su za svaku metriku. Metal rezultati su prikazani kao 1 − devol, da proizvede mjeru sličnosti.

MSA ocjene kvaliteta u poređenju sa preciznošću rekonstrukcije na različitim MSA alatima. Razlike mjera kvaliteta između MSA alata pod parametrima simulacije 64 taksona, visina stabla 1,2, frakcija uzorkovanja 0,01 i stopa indeliranja 0,05. MSA ocjene kvaliteta (ružičaste) predstavljaju vrijednosti za svaku replikaciju scenarija (deset stabala i deset poravnanja za svako stablo). Na svim dijagramima prikazane su tačnosti rekonstrukcije (plavo) za poređenje, koje predstavljaju očekivano ponašanje u smislu razlika između alata. Vrijednosti tačnosti rekonstrukcije mjerene su kao prosjek svih rekonstruiranih tačnosti čvorova u svakoj replici, i iste su u svakom grafikonu. MSA alati se naručuju prema sredstvima tačnosti rekonstrukcije (od najboljeg do najgoreg). Spearmanove rho korelacije između rezultata kvaliteta MSA i tačnosti rekonstrukcije prikazane su za svaku metriku. Metal rezultati su prikazani kao 1 − devol, da proizvede mjeru sličnosti.

Alternativni Indel parametri

U našoj primarnoj analizi, simulirali smo sekvence koristeći parametre brzine indeliranja od 0,01 i 0,05. Međutim, analize ortologa sisavaca i bakterija iz baza podataka OrthoMam (Douzery et al. 2014) i COG (Tatusov et al. 2003) sugeriraju stopu indela od 0,02 i konstantu distribucije po stepenu od 1,125 za proteine ​​sisara. Procjene iz COG-a sugeriraju stopu indeliranja od 0,125 i konstantu distribucije po stepenu od 1,3 (Levy Karin et al. 2015). Stoga smo simulirali podatke sa ovim stopama indela na stablima sa 32 taksona, visinom stabla od 1,0 i frakcijom uzorkovanja od 0,01 i 0,99 (dodatni materijal —dodatni fajl S2, Dodatni materijal na mreži). Maksimalna dozvoljena dužina indela bila je 50 aminokiselinskih ostataka. Rezultati za stope sisara bili su slični onima dobijenim sa parametrima indel rate od 0,05, sa nešto boljom preciznošću. Indel parametri procijenjeni iz COG ortologa predstavljaju daleko zahtjevnije uslove. Nijedan MSA alat nije postigao dobru tačnost rekonstrukcije koristeći veću vrijednost parametra indel (0,125), s preciznošću u većini drevnih čvorova ispod 0,2. Tačne rekonstrukcije su dobijene u blizini vrhova. Visoka stopa indeliranja koju zaključuje COG mogla bi biti posljedica njegovog generalističkog aspekta, koji, po definiciji, uključuje nekoliko grupa ortologa (Trachana et al. 2011 Douzery et al. 2014). Stoga, pouzdane rekonstrukcije najprecih čvorova nisu moguće, što ne predstavlja održiv slučaj za ASR proteina.


Reference

Needleman SB, Wunsch CD: Opća metoda primjenjiva na traženje sličnosti u sekvenci aminokiselina dva proteina. J Mol Biol. 1970, 48 (3): 443-453. 10.1016/0022-2836(70)90057-4.

Smith TF, Waterman MS, Fitch WM: Komparativna metrika biosekvencije. J Mol Evol. 1981, 18 (1): 38-46. 10.1007/BF01733210.

Feng DF, Doolittle RF: Progresivno poravnanje sekvenci kao preduvjet za ispravljanje filogenetskih stabala. J Mol Evol. 1987, 25 (4): 351-360. 10.1007/BF02603120.

Thompson JD, Higgins DG, Gibson TJ: CLUSTAL W: poboljšanje osjetljivosti progresivnog višestrukog poravnanja sekvenci kroz ponderiranje sekvence, kazne za razmake specifične za poziciju i izbor matrice težine. Nukleinske kiseline Res. 1994, 22 (22): 4673-4680. 10.1093/nar/22.22.4673.

Subramanian AR, Kaufmann M, Morgenstern B: DIALIGN-TX: pohlepni i progresivni pristupi za višestruko poravnanje zasnovano na segmentima. Algoritmi Mol Biol. 2008, 3: 6-10.1186/1748-7188-3-6.

Notredame C, Higgins DG, Heringa J: T-kafa: nova metoda za brzo i precizno višestruko poravnanje sekvenci. J Mol Biol. 2000, 302 (1): 205-217. 10.1006/jmbi.2000.4042.

Da li CB, Mahabhashyam MS, Brudno M, Batzoglou S: ProbCons: probabilističko poravnanje više sekvenci zasnovano na konzistentnosti. Genome Res. 2005, 15 (2): 330-340. 10.1101/gr.2821705.

Roshan U, Livesay DR: Probalign: višestruko poravnanje sekvenci koristeći posteriorne vjerovatnoće particione funkcije. Bioinformatika. 2006, 22 (22): 2715-2721. 10.1093/bioinformatics/btl472.

Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG: Brza, skalabilna generacija visokokvalitetnog višestrukog poravnanja proteina koristeći klastal omega. Mol Syst Biol. 2011, 7: 539-

Lee C, Grasso C, Sharlow MF: Višestruko poravnanje sekvenci pomoću grafova parcijalnog reda. Bioinformatika. 2002, 18 (3): 452-464. 10.1093/bioinformatics/18.3.452.

Gotoh O: Značajno poboljšanje u tačnosti višestrukih poravnanja sekvenci proteina iterativnim preciziranjem procijenjeno na osnovu strukturnih poravnanja. J Mol Biol. 1996, 264 (4): 823-838. 10.1006/jmbi.1996.0679.

Edgar RC: MIŠIĆ: metoda višestrukog poravnanja sa smanjenom vremenskom i prostornom složenošću. BMC Bioinforma. 2004, 5: 113-10.1186/1471-2105-5-113.

Katoh K, Misawa K, Kuma K, Miyata T: MAFFT: nova metoda za brzo višestruko poravnanje sekvenci zasnovano na brzoj Fourier transformaciji. Nukleinske kiseline Res. 2002, 30 (14): 3059-3066. 10.1093/nar/gkf436.

Hirosawa M, Totoki Y, Hoshida M, Ishikawa M: Sveobuhvatna studija o iterativnim algoritmima višestrukog poravnanja sekvenci. Comput Appl Biosci. 1995, 11 (1): 13-18.

Katoh K, Kuma K, Toh H, Miyata T: MAFFT verzija 5: poboljšanje tačnosti višestrukog poravnanja sekvenci. Nukleinske kiseline Res. 2005, 33 (2): 511-518. 10.1093/nar/gki198.

Thompson JD, Koehl P, Ripp R, Poch O: BAliBASE 3.0: najnoviji razvoj mjerila za višestruko poravnanje sekvenci. Proteini. 2005, 61 (1): 127-136. 10.1002/prot.20527.

Bahr A, Thompson JD, Thierry JC, Poch O: BAliBASE (benchmark alignment dataBASE): poboljšanja za ponavljanja, transmembranske sekvence i kružne permutacije. Nukleinske kiseline Res. 2001, 29 (1): 323-326. 10.1093/nar/29.1.323.

Perrodou E, Chica C, Poch O, Gibson TJ, Thompson JD: Novi benchmark proteinskih linearnih motiva za softver za poravnavanje više sekvenci. BMC Bioinforma. 2008, 9: 213-10.1186/1471-2105-9-213.

Lassmann T, Sonnhammer EL: Procjena kvaliteta višestrukih programa usklađivanja. FEBS Lett. 2002, 529 (1): 126-130. 10.1016/S0014-5793(02)03189-7.

Thompson JD, Plewniak F, Poch O: Sveobuhvatno poređenje višestrukih programa za poravnanje sekvenci. Nukleinske kiseline Res. 1999, 27 (13): 2682-2690. 10.1093/nar/27.13.2682.

Blackshields G, Wallace IM, Larkin M, Higgins DG: Analiza i poređenje referentnih vrijednosti za višestruko poravnanje sekvenci. In Silico Biol. 2006, 6 (4): 321-339.

Nuin PA, Wang Z, Tillier ER: Preciznost nekoliko programa za poravnanje višestrukih sekvenci za proteine. BMC Bioinforma. 2006, 7: 471-10.1186/1471-2105-7-471.

Myers EW, Miller W: Optimalna poravnanja u linearnom prostoru. Comput Appl Biosci. 1988, 4 (1): 11-17.

Edgar RC: Optimizacija izbora matrice supstitucije i parametara jaza za poravnanje sekvence. BMC Bioinforma. 2009, 10: 396-10.1186/1471-2105-10-396.

Katoh K, Toh H: Najnovija dešavanja u programu višestrukog poravnanja MAFFT-a. Kratka bioinformacija. 2008, 9 (4): 286-298. 10.1093/bib/bbn013.

Katoh K, Toh H: Paralelizacija programa višestrukog poravnanja MAFFT-a. Bioinformatika. 2010, 26 (15): 1899-1900. 10.1093/bioinformatics/btq224.

Blackshields G, Sievers F, Shi W, Wilm A, Higgins DG: Ugrađivanje sekvence za brzu konstrukciju stabala vodiča za višestruko poravnanje sekvenci. Algoritmi Mol Biol. 2010, 5: 21-10.1186/1748-7188-5-21.


Naš sačuvani BLAST rezultat možemo učitati na sljedeći način.

Provjerimo vraćene pogotke. Pošto smo dobili BLAST izlaz u XML formatu, možemo raščlaniti rezultat koristeći NCBIXML. Ovdje smo koristili jednu sekvencu upita i stoga smo dobili samo jedan zapis.

Poravnanja možete dobiti sa blast_record.alignments.

Možete navesti različite atribute svakog objekta koristeći funkciju dir().

Ako imate više sekvenci upita, možete raščlaniti rezultat na sljedeći način.

Možete koristiti for petlju za pristup zapisima na sljedeći način.

Više o tome kako koristiti Biopython sa BLAST-om možete pročitati u Biopython vodiču i kuharici.


Slika 3

Slika 3. Prediktivni modeli za supstrate S-metolaklor i alahlor. Izmjerena aktivnost svakog infologa se koristi za generiranje modela (A1, B1) dodjeljivanjem težine (A2, B2) svakoj pojedinačnoj varijabli (supstitucija) koja opisuje njen učinak na aktivnost. A1 i A2 je model i dodjela težine za S-metolaklor. B1 i B2 je model i dodjela težine za alahlor. Traka raspodjele za svaku varijablu pokazuje Gaussovu distribuciju izračunate težine unutar 1000 početnih koraka poduzorkovanja kako je opisano u tekstu. Instick graf u A1 i B1 prikazuje model ako je redoslijed uzorka nasumičan (unakrsna validacija 0,04 odnosno 0,17).


Pogledajte video: Beginners Guide to Clustal Omega. Multiple Sequence Alignment (Februar 2023).