Informacije

Mogu li PolyA repovi biti unutar oznaka izražene sekvence?

Mogu li PolyA repovi biti unutar oznaka izražene sekvence?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mogu li se polyA repovi pojaviti unutar (a ne na kraju) sekvencirane oznake? Razmotrite, na primjer, sljedeće dvije sekvence iz NCBI: DY008075

> Gi | 119423037 | gb | DY008075.1 | DY008075 19ACACYS_UP_022_A11_29OCT2004_095 Brassica napus 19ACACYS Brassica napus cDNA 5 ', RNK sekvence TGGTACGGTCAGATGCTTGCTAAAGGAGAAATAAATAGAGACATGGGTGATAGTATAAGCGGAAAGGGAA TGATTCAGGGTGTTTCTGCAGTGGGAGCGTTTTACCAACTGCTTAGTCAGTCCAGCCTAAGTATATTGCA TTCTGAAGAGAAGAAACCTGTGGCTCCGGTTGAATCATGTCCTATTTTGAAAACACTCTACAAGATACTC ATCACAAGAGAACAATCAACACAAGCGATTCTGCAAGCATTAAGGGATGAAACACTGAATGACCCAAGAG ACAGGATTGAGATTGCACAGAGCCATGCATTCTACAGGCCTTCCCTTCTAGATCAGCCTTGATTAGTCTG TCATGGCTCATAATCCGAACTTCTAAGATCTTACTTGTGCAAACTGCAGATTCTGCTATGTTAAACATCA TGTCTTAAAATTGATTGTTGTTCAGCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACATGTC

ili EE485195

> Gi | 126492146 | gb | EE485195.1 | EE485195 DHBN8DCT_UP_012_C05_25FEB2005_043 Brassica napus seeds BNDH8DCT Brassica napus cDNA 5 ', RNK sekvence GTTACAGCTGGTTGAGAACAGTGACAATTCCCGGTTGAGCAAAGAAATTGCAGACAAGAGCCACCAACTA AGGCAAATGAGAGGAGAGGAACTTCAAGGACTTAACATAGAAGAGCTGCAACAGCTGGAAAAGGCCCTTG AAGCTGGTTTGACGCGCGTGATTGAAACAAAGAGTGAGAAGATTATGAGTGAGATCAGTGACCTTCAAAG AAAGGGAATGAAATTGATGGATGAGAACAAGCGGCTAAGGCAGCATGGAACACAACTAACAGAAGAGAAC GAGCGACTAGGCAAGCAAATATATAATAATATGCATGAAAGATACGGTGGTGTTGAGTCGGAGAAGACCG CCGTGTACGAGGAAGGGCAGTCGTCAGAGTCCATTACTAACGCCGGAAACTCCACCGGCGCTCCTGTTGA CTCCGAGAGCTCCGATACCTCTCTTAGGCTCGGCTTACCGTATGGCGGTTAGAGATGGAACCATACAAAG AAGTTCATGGAGTGAGGAGATGCTCTGTAGTAACAAGTGGCAATGTAGTAATTTCTCTTGTTTGATGTAA GTTTTTGTCTGAGGAAGAGGTTTTCCTTTTATGTTCTCTTTGATATTATTATCTTTCTTCACTGCAAAAA AAAAAAAAAAAAAAAAAAAAAAAACATGTC

Čini mi se da su obje polyA sekvence na kraju neka vrsta repa, a ne stvarno kodiranje za poli lizine. Ako UDARIM bilo koju od sekvenci, dio polyA se neće uskladiti ni sa jednim pouzdanim nukleotidom ili proteinom (tj. sa neredundantnim bazama podataka NCBI). Mogu dati više primjera i pokazati njihova najbolja poravnanja sa nr-sekvencijama, ali to će učiniti pitanje predugačkim.

Cross je postavljen na SeqAnswers.


CATGTC sekvenca na kraju poli A repa je artefakt metode korišćene u konstruisanju originalne biblioteke cDNK.

Prema https://www.ncbi.nlm.nih.gov/nucest/EE485195.1 ovaj EST dolazi iz biblioteke konstruirane u Clontech vektoru pDNR-LIB

Priručnici Clontech SMART cDNA sistema za kloniranje su povezani odavde, a opći priručnik opisuje upotrebu prajmera za sintezu 1. lanca:

CDS III/3' PCR Primer 5'-ATTCTAGAGGCCGAGGCGGCCGACATG-d(T)30N-1N-3'

(N = A, G, C ili T; N-1 = A, G ili C)

Ako pažljivo pogledate prajmer, vidjet ćete da oligo dT dijelu, dizajniranom za spajanje sa poli-A repom mRNA, prethodi sekvenca GACATG i SfiI mjesto koje se koristi u nekoj pametnoj strategiji kloniranja koju ja ne koristim. ne razumem u potpunosti. Ono što je međutim jasno je da će upotreba ovog prajmera staviti CATGTC odmah iza poli A u cDNK:

… SfiI… 5'-ATTCTAGAGGCCGAGGCGGCCGACATGTTTTTTTTTTTTTTTTTT… TAAGATCTCCGGCTCCGCCGGCTGTACAAAAAAAAAAAAAAAAAAA… 5' >>> okretanje donjeg pramena okolo - 5'… AAAAAAACATGTC

Kupina (RubusL.) ekspresirana biblioteka oznaka sekvence za razvoj jednostavnih markera ponavljanja sekvence

Nedavni razvoj novih vrsta kupine sa ponovljenim plodovima (Rubus L.) sorte, u kombinaciji sa dugom istorijom morfološke selekcije uz pomoć markera za bezbodnost od strane uzgajivača kupine, dovela je do povećanog interesa za korištenje molekularnih markera za olakšavanje uzgoja kupine. Ipak, ne postoje genetske mape, molekularni markeri, pa čak ni sekvence posebno za kultivisanu kupinu. Svrha ove studije je započeti razvoj ovih alata generiranjem i označavanjem prve biblioteke ekspresiranih oznaka sekvence (EST), dizajniranjem prajmera iz EST-a za amplifikaciju regija koje sadrže jednostavne ponavljanja sekvence (SSR) i testiranjem korisnosti podskupa EST-SSR sa dvije sorte kupine.

Rezultati

Biblioteka cDNK od 18,432 klona je generisana iz ekspandirajućeg tkiva lista sorte Merton Thornless, prethodnika mnogih komercijalnih sorti bez trna. Među najizraženijim od 3.000 označenih gena bili su oni koji su uključeni u energiju, ćelijsku strukturu i odbranu. Od pojedinačnih sekvenci koje sadrže SSR, dizajnirano je 673 para prajmera. Od nasumično odabranog seta od 33 para prajmera testiranih sa dvije sorte kupine, 10 je otkrilo u prosjeku 1,9 polimorfnih PCR proizvoda.

Zaključak

Ova stopa predviđa da ova biblioteka može dati čak 940 SSR parova prajmera koji detektuju 1.786 polimorfizama. Ovo može biti dovoljno za stvaranje genetske mape koja se može koristiti za povezivanje molekularnih markera sa fenotipskim osobinama, čineći mogućim oplemenjivanje uz pomoć molekularnih markera kako bi se upotpunilo postojeće oplemenjivanje kupina uz pomoć morfoloških markera.


Sažetak

Ekspresirane oznake sekvence (ESTs) ostaju dominantan pristup za karakterizaciju dijelova različitih genoma koji kodiraju proteine. Zbog inherentnih nedostataka, oni takođe predstavljaju ozbiljne izazove za kontrolu kvaliteta podataka. Prije podnošenja GenBank-a, EST sekvence se tipično pregledaju i skraćuju od sekvenci vektora i adaptera/linkera, kao i poliA/T repova. Uklanjanje ovih sekvenci predstavlja prepreku za validaciju podataka EST-ova sklonih greškama i otežava prikupljanje podataka određenih funkcionalnih motiva, čije se otkrivanje oslanja na tačnu notaciju pozicionih informacija za poliA repove dodane posttranskripciono. Kako sirove informacije o sekvenci DNK postaju sve dostupnije iz javnih spremišta, kao što je NCBI Trace Archive, novi alati će biti neophodni za ponovnu analizu i prikupljanje ovih podataka za nove informacije. WebTraceMiner (www.conifergdb.org/software/wtm) je dizajniran kao javna usluga obrade sekvenci za neobrađene EST tragove, sa fokusom na otkrivanju i rudarenju karakteristika sekvence koje pomažu u karakterizaciji 3′ i 5′ završetaka cDNK umetaka, uključujući fragmente vektora, sekvence adaptera/linkera, mjesta za prepoznavanje restrikcijske endonukleaze sa bočnim umetcima i poliA ili polyT repove. WebTraceMiner nadopunjuje druge javne EST resurse i trebao bi se pokazati kao jedinstven alat za olakšavanje validacije podataka i rudarenje EST-ova sklonih greškama (npr. otkrivanje novih funkcionalnih motiva).


Rezultati

PAIso-seq za tačnu analizu poli(A) repa

Trenutne metode u analizi poli(A) repova na Illumina NGS platformi ograničene su nemogućnošću rukovanja dugim sekvencama homopolimera. TAIL-seq i PAL-seq koristili su alternativni algoritam za pozivanje poli(T) dužine ili recept za sekvenciranje da prebroje poli(T) dužinu dok su žrtvovali mogućnost pozivanja ne-A ostataka unutar RNA poli(A) repova, s izuzetkom vrlo 3′ kraj 1,8 . Štaviše, zahtijevaju mikrogramski nivo unosa RNK koji nije izvodljiv za rijetke uzorke in vivo ili uzorke pacijenata. Trenutni razvoj PacBio treće generacije sekvenciranja omogućava očitavanje homopolimera kroz jednomolekulsko sekvenciranje u realnom vremenu. Pored toga, petlja predložaka sekvenciranja u bibliotekama sekvenciranja omogućava sekvencioniranje jednog šablona višestrukim prolazima za precizno pozivanje konsenzus sekvence učitane 19 . Stoga, PacBio platforma za sekvenciranje treće generacije može biti najbolji izbor za preciznu analizu dužine i sastava RNA poli(A) repova.

Smatramo da ćemo, ako možemo sačuvati informacije o poli(A) tokom reverzne transkripcije, moći precizno analizirati informacije o RNA poli(A) korištenjem PacBio sekvenciranja. Kako bismo smanjili pristranost prema dugim poli(A) repovima, također želimo izbjeći korak obogaćivanja poli(T). Stoga, biramo krajnje proširenje poli(A) + RNA sa vodećim prajmerom koji sadrži adaptersku sekvencu oligo (TSO) sekvence koja mijenja šablone minus trostruke G baze na 5′ kraju i sa 5′-dUTTTTTTTdUTTTTTTT-3′ sekvencom na 3′ kraj koji se može žariti do kraja poli(A) + RNK (slika 1a i dodatna tabela 1). Nakon produžetka kraja, vodeći prajmer je uklonjen digestijom sa USER enzimom koji cijepa dva ostatka dU unutar prajmera kako bi se izbjegao vodeći prajmer kao RT prajmer u sljedećem koraku reverzne transkripcije (slika 1a). Reverzna transkripcija i prebacivanje šablona izvedeni su u prisustvu prajmera koji odgovara TSO sekvenci minus trostruke G baze i TSO sa trostrukim G na kraju (slika 1a). Zatim je cDNK amplificirana sa jednim TSO oligo minus trostrukim G da bi se stvorila dovoljna količina cDNK spremne za ligaciju SMRTbell adaptera (slika 1a). Nakon ligacije adaptera, kružna cDNK biblioteka pune dužine sa poli(A) repovima je sekvencionirana na PacBio platformi kako bi se generirala duga čitanja polimeraze do 45 kb, koja mogu imati do 200 prolaza jednog molekula za precizno pozivanje CCS čitanja predstavlja jednu cDNK sekvencu pune dužine uključujući poli(A) repove, koja je sekvencionirana više puta. Broj prolaza CCS očitanja predstavlja koliko je puta sekvencija pojedinačne cDNK sekvencionirana (slika 1a). Predložak krajnjeg proširenja i reverzna transkripcija u kombinaciji sa prebacivanjem šablona su vrlo efikasni, stoga ova metoda može biti vrlo osjetljiva.

Princip i validacija PAIso−seq. a Dijagram toka za dizajn PAIso-seq metode. Glavni koraci metode uključuju end-extension, template-switching, cDNK amplifikaciju pune dužine, kružnu ligaciju adaptera i PacBio sekvenciranje. b Analiza strukture (gornja ploča) i agaroznog gela poli(A) šiljaka (srednja ploča). Srednja dužina repa poli(A) svakog šiljka mjerena pomoću PAIso-seq (donji panel). Izvorni podaci se pružaju kao datoteka izvornih podataka. c Poli(A) dužine repa Dnmt1, Btg4, i Plat u GV oocitima izmjerenim pomoću PAIso-seq (grafikon gustine dužine poli(A) repa detektovanih CCS očitavanja datih gena, tri replika, lijevi panel) i PAT testa korištenjem kapilarne elektroforeze na analizatoru fragmenata (srednja vrijednost od tri replika, desno panel). Prikazana je srednja dužina poli(A) repa svakog gena merena pomoću PAIso-seq. Broj korištenih CCS čitanja je 141 (Dnmt1/GV rep.1), 249 (Dnmt1/GV rep.2), i 165 (Dnmt1/SCGV com.) 164 (Btg4/GV rep.1), 521 (Btg4/GV rep.2), i 357 (Btg4/SCGV com.) 136 (Plat/GV rep.1), 277 (Plat/GV rep.2), i 207 (Plat/SCGV com.). Prosječna dužina poli(A) repova je 74 nt (Dnmt1), 44 nt (Btg4), i 45 nt (Plat) mjereno PAT testom. RFU, relativne jedinice fluorescencije.

Koristeći ovu metodu, sekvencirali smo dvije biblioteke pune dužine poli(A) + cDNK iz dvije nezavisne biološke replike uzoraka mišjih GV oocita korištenjem PAIso-seq. Svako CCS očitanje koje se može mapirati smatra se otkrivenim transkriptom. Nakon mapiranja CCS-a na genom miša (GRCm38 build), prva biblioteka sadrži 79.994 transkripata, dok druga biblioteka sadrži 227.902 transkripta (dopunska slika 1a). Osim toga, testirali smo da li se metoda može koristiti za analizu jedne ćelije sekvenciranjem 15 pojedinačnih GV oocita (pogledajte dolje za detalje). Kombinovali smo sve podatke za pojedinačne ćelije kao treću biološku repliku koja sadrži ukupno 191.023 transkripta (dopunska slika 1a). Kada se kombinuju sva tri replika zajedno, skup podataka GV oocita pokriva 11.538 gena sa najmanje jednim transkriptom i 8281 gen sa najmanje tri transkripta (dopunska slika 1b).

Da bismo testirali da li PAIso-seq može precizno procijeniti dužinu poli(A) repova, ubacili smo grupu sintetičkih cDNK sa crtičnim kodom sa definisanim dužinama poli(A) repova od 10, 30, 50, 70 i 100 nt, respektivno. , na reverzno transkribovani uzorak cDNK (dopunska slika 2a). Nakon sekvenciranja, uočili smo srednju dužinu repa od 10, 28, 48, 67 i 97 nt, što je vrlo blizu očekivanoj dužini (slika 1b), pokazujući da naša metoda može precizno procijeniti poli(A) dužinu repa. . Za uzorak GV oocita to možemo vidjeti Dnmt1 ima relativno duge poli(A) repove, dok Btg4 i Plat ima relativno kratke poli(A) repove, što je generalno u skladu sa rezultatima testa poli(A) dužine (PAT) (pogledajte odeljak „Metode“) za ove gene (slika 1c). Stoga, dužina poli(A) repa iz PAIso-seq može biti verifikovana i standardom spike-in i metodom nezavisnom od sekvenciranja, potvrđujući sposobnost ove metode u proceni dužine repa poli(A).

PAIso-seq ima dobru reproduktivnost

Da bismo analizirali reproducibilnost PAIso-seq, prvo smo uporedili da li možemo dobro uhvatiti transkriptom. Možemo vidjeti da normalizirani broj očitavanja po genu pokazuje dobru korelaciju između svake replike (dopunska slika 3). Globalni obrasci distribucije poli(A) dužine repa po transkriptu i po genu su slični između svake od replika (Slika 2a, b). Štaviše, dužina poli(A) repa za svaki gen je visoko reproducibilna između replika (slika 2c). Dužina repa poli(A) u GV oocitima je prethodno mapirana korišćenjem TAIL-seq sa maksimalnom granicom detekcije od 79 nt 10 . Možemo vidjeti da postoji dobra korelacija između dužine repa poli(A) određene pomoću TAIL-seq i PAIso-seq (slika 2d), što dalje potvrđuje performanse PAIso-seq u određivanju dužine repa poli(A). Jedna očigledna karakteristika PAIso-seq je da nema očiglednu gornju granicu veličine za detekciju. Poli(A) repovi se obično smatraju ne dužim od 250 nt, pri čemu se enzim više ne može vezati za CPSF (faktor specifičnosti cijepanja i poliadenilacije) i poliadenilacija prestaje 20,21. Kada pogledamo pojedinačne poli(A) repove, vidjeli smo oko 0,4% (1,100/297,868) poli(A) repova dužih od 200 nt i 0,1% (207/297,868) dužih od 260 nt. Iako je broj transkripata sa dugim repovima mali, oni su vrlo vjerovatno stvarni, jer za neke od gena možemo dosljedno otkriti transkripte s dugim repovima iz tri nezavisne replike (dodatna tabela 4). U budućnosti će biti zanimljivo analizirati funkciju i regulaciju ovih dugih poli(A) repova koji se ne mogu identificirati prethodnim metodama.

PAIso-seq hvata poli(A) inkluzivne transkripte. a Globalna distribucija poli(A) dužine repa svih transkripata (CCS) u GV oocitima. Prikazana je srednja dužina repa poli(A) CCS čitanja za svaku repliku. b Distribucija poli(A) dužine repa svih gena. Prikazana je medijana srednje dužine poli(A) repa gena za svaku repliku (sa ne manje od tri CCS-a). c Korelacija dužine repa poli(A) gena (sa najmanje deset CCS u svakoj od replika) između tri replika GV oocita. Plava linija predstavlja liniju linearne regresije. Svijetlosiva oblast predstavlja interval pouzdanosti regresije. n = 1179 (lijevi panel), n = 1120 (srednji panel), i n = 1992 (desni panel). Rstr i Rs odnose se na Pearsonov i Spearmanov koeficijent korelacije. d Korelacija između dužine repa gena poli(A) u GV oocitima izmjerena pomoću PAIso-seq (ova studija) i TAIL-seq 10 . Plava linija predstavlja liniju linearne regresije. Svijetlosiva oblast predstavlja interval pouzdanosti regresije. U analizu su uključeni geni s najmanje 10 čitanja u PAIso-seq i 30 oznaka u TAIL-seq skupovima podataka (n = 1662). Rstr i Rs odnose se na Pearsonov i Spearmanov koeficijent korelacije. e Distribucija poli(A) repova dužih od 200 nt. Broj iznad trake pokazuje broj CCS čitanja sa datom dužinom repa poli(A).

Poliadenilacija specifična za izoforme

Pokazalo se da alternativna poliadenilacija (APA) mRNA ima značajnu ulogu u mnogim biološkim procesima uključujući sazrijevanje oocita miša 22 . Naš metod omogućava da se dobiju cDNK sekvence pune dužine sa punim informacijama o poli(A) repovima. Stoga je izvodljivo analizirati poli(A) repove različitih izoforma mRNA iz svakog gena, uključujući APA i alternativno spajanje. Koristeći podatke GV oocita PAIso-seq, možemo direktno i precizno mapirati mjesta poliadenilacije transkripata GV oocita. Kada se uporedi sa označenim poli(A) lokacijama u anotaciji genoma miša Ensembl (mm10, verzija 92), identifikovali smo 3511 gena sa dva mesta poliadenilacije (1 APA mesto), 762 gena sa tri poliadenilacione lokacije (2 APA) i 220 gena. sa više od tri mesta poliadenilacije (≥3 APA mesta) (slika 3a). Ova mjesta se dobro preklapaju sa označenim mjestima poliadenilacije RNA (slika 3a). Različite izoforme mogu imati različite poli(A) repove. Na primjer, pronašli smo Ccnb1 transkripti sa tri različita poliadenilaciona mesta koja rezultiraju u tri različite veličine 3′-UTR. Jasno, Ccnb1 transkript APA1 i APA2 izoforme su slične dužine poli(A) repova, dok je APA3 izoforma značajno dužih poli(A) repova u GV oocitima (slika 3b). Ovo je u skladu sa prethodnom studijom o Ccnb1 poli(A) dužina repa u različitoj fazi razvoja oocita 22 . Kao drugi primjer, otkrili smo da Wee2, ključna inhibitorna kinaza MPF (maturation (M-phase)-promoting factor) neophodna za održavanje mejotskog aresta 23 , ima dvije različite APA izoforme sa značajno različitom dužinom poli(A) repova (slika 3b).

PAIso-seq omogućava detekciju poli(A) repova specifičnih za izoformu. a Događaji alternativne poliadenilacije (APA) (lijevi panel) majčinih transkripata u GV oocitima otkriveni pomoću PAIso-seq i upoređeni sa referentnim poli(A) mjestom (desni panel) 45 . b dva majčina gena, Ccnb1 (sa tri poliadenilacijske lokacije, str = 0,0067 između APA2 i APA3) i Wee2 (sa dva mjesta poliadenilacije, str = 3.9e − 12 između dva APA) sa poli(A) repovima specifičnim za APA izoformu. Broj APA izoformi prikazan je desno od APA modela. Srednja dužina poli(A) repova iz izoforma različitih poliadenilacionih mesta prikazana je na grafikonu. The str vrijednost je izračunata neparnim i dvostranim Studentovim t test. Broj korištenih CCS čitanja je 194 (Ccnb1/APA1), 70 (Ccnb1/APA2) i 50 (Ccnb1/APA3) 53 (Wee2/APA1) i 132 (Wee2/APA2). c Različite alternativne izoforme spajanja Tcl1 mRNA imaju različite dužine poli(A) repova. Model gena i uhvaćene izoforme (vrh) od Tcl1. Broj otkrivenih izoforma prikazan je na desnoj strani. Duljina poli(A) repa otkrivenih izoforma je prikazana na dnu. Prikazana je srednja dužina svakog repa poli(A) izoforme. str = 0,03791 između izoforme a i c str = 0,014 između izoforme b i c. The str vrijednost je izračunata neparnim i dvostranim Studentovim t test. Broj korištenih CCS očitavanja je 242 (izoforma a), 14 (izoforma b), 7 (izoforma c) i 8 (izoforma e).

Pored APA, PAIso-seq takođe omogućava detekciju potpunih RNK ​​izoformi zajedno sa poli(A) informacijama. Zaista, vidimo da različite alternativno spojene izoforme mogu imati različite dužine poli(A) repova. Na primjer, Tcl1 je označen sa pet različitih izoforma, od kojih smo četiri detektovali u PAIso-seq sa različitom dužinom poli(A) repova u GV oocitima (slika 3b). Ovi rezultati pokazuju da je PAIso-seq moćan alat koji omogućava proučavanje poli(A) repova specifičnih za izoformu.

Povezanost dužine repa s translacijom u mišjim GV oocitima

Mnogi važni događaji se dešavaju u razvoju oocita i embriona u vrlo ranoj fazi, uključujući skladištenje mRNK i proteina tokom sazrevanja oocita, aktivaciju zigotskog genoma i klirens mRNA/proteina majke u ranim embrionima. Ovi procesi u velikoj mjeri zavise od mRNA i proteina pohranjenih u oocitima, koji se postepeno akumuliraju tokom oogeneze. Translacijska kontrola nekoliko mRNA pomoću dužine repa poli(A) je demonstrirana u mišjim oocitima 5,14,16. Međutim, ostaje nepoznato da li se radi o pravom transkriptomu. Wang et al. 24 prethodno prijavljenih proteoma mišjih GV oocita. Na osnovu proteinskog profila GV oocita, podijelili smo majčinske transkripte u dvije kategorije: jedna je sa niskim udjelom proteina (1184 gena, CCS ≥10, nije detektirano u analizi masenih specifikacija), a druga je bogata proteinima ( 2669 gena, CCS ≥10, otkriveno u analizi masenih specifikacija) (slika 4a). Upoređujući poli(A) dužinu repa ove dvije kategorije, otkrili smo da grupa sa visokim sadržajem proteina ima srednju dužinu repa poli(A) od 62 nt, što je znatno duže od one grupe sa niskim sadržajem proteina na 56 nt ( Slika 4a). Pozitivna korelacija između dužine poli(A) repa i nivoa proteina sugeriše da duži poli(A) repovi promovišu translaciju u mišjim GV oocitima. KEGG (Kyoto Encyclopedia of Genes and Genomes) analizom puta, otkrili smo da su geni grupe sa visokim sadržajem proteina povezani sa kontinuiranom funkcionalnošću GV oocita, kao što je procesiranje proteasoma i proteina u endoplazmatskom retikulumu, dok su geni grupe sa niskim sadržajem proteina povezani sa voljna funkcionalnost GV oocita, kao što su ćelijski ciklus i mejoza oocita (slika 4b). Stoga sugerira da transkripti gena grupe sa visokim sadržajem proteina imaju duže poli(A) repove za efikasnu translaciju u ovom trenutku, dok transkripti gena grupe sa niskim sadržajem proteina imaju kraće poli(A) repove za skladištenje u ovom trenutku. Na primjer, mRNA od Dnmt1, Tle6, Npm2, i Zp2, za koje se pokazalo da su aktivno translirani u GV oocitima 25,26,27,28, imaju poli(A) rep dužine duži od 60 nt (slika 4c). U kontrastu, Btg4, Cnot7, Cnot6l, i Plat, koje su dobro poznate kao uspavane majčinske mRNA sa nižim nivoima proteina u GV oocitima 5,14,29, imaju poli(A) rep dužine kraće od 60 nt (slika 4c). Ovi transkripti će biti dodatno poliadenilirani za efikasan prevod u kasnijim fazama razvoja 5,14,16,30,31.

Dužina poli(A) repa pozitivno korelira sa nivoom proteina. a Violin dijagram za distribuciju dužine poli(A) repa gena niske zastupljenosti proteina i gena visoke zastupljenosti proteina (geni sa najmanje deset otkrivenih transkripata su uključeni u analizu). Dve isprekidane linije predstavljaju srednje dužine poli(A) repova gena niske količine proteina (ružičaste) i gena visoke količine proteina (svetlo plave). The str vrijednost je izračunata neparnim i dvostranim Studentovim t test. b Funkcionalna kategorizacija gena u klasterima gena sa visokim sadržajem proteina i klasterima gena sa niskim sadržajem proteina KEGG analizom (str granična vrijednost = 0,05). The str vrijednost se izračunava hipergeometrijskim testom. c Poli(A) distribucije dužine repa za četiri gena sa visokim sadržajem proteina (Dnmt1, Tle6, Npm2, i Zp2, cijan) i četiri gena niske količine proteina (Btg4, Cnot7, Cnot6l, i Plat, roze). Plava isprekidana linija koja označava 60 nt korištena je za vizualizaciju razlike u dužini repa poli(A) između grupa gena s visokim udjelom proteina i niskim sadržajem proteina. Crne tačke označavaju srednju dužinu poli(A) repa svakog gena. Broj korištenih CCS čitanja je 390 (Dnmt1), 287 (Tle6), 146 (Npm2), 144 (Zp2), 685 (Btg4), 94 (Cnot7), 73 (cnot6l), i 413 (Plat). d Validacija poli(A) dužine repa gena prikazanih na slici 3c pomoću PAT testa. Tamnoplave vrhove strelica predstavljaju trake bez poli(A) repa (A0), a cijan (visoka zastupljenost proteina) i ružičaste (niska zastupljenost proteina) predstavljaju trake sa poli(A) repom (poliadenilacija). M, marker. Zbog dodatnog G repa i sekvence adaptera, dužina PCR proizvoda poliadenilacije minus A0 proizvodi je najmanje 35 bp duža od stvarnih poli(A) repova 43 . Izvorni podaci se pružaju kao datoteka izvornih podataka.

Da bismo dalje potvrdili PAIso-seq podatke, izvršili smo PAT test na ovih osam pojedinačnih gena kao što je prikazano na slici 3c koristeći RNK iz oocita u GV fazi. Poli(A) dužina repa određena PAT testom pokazala je vrlo slične obrasce onima iz PAIso-seq (slika 4d), potvrđujući da Dnmt1, Tle6, Npm2, i Zp2 zaista imaju duže poli(A) repove od Btg4, Cnot7, Cnot6l, i Plat, pokazujući da PAIso-seq može precizno izmjeriti poli(A) dužinu repa, obezbjeđujući globalnu povezanost između sinteze proteina i dužine repa poli(A) mRNA u GV oocitima miša.

Široko rasprostranjeni neadenozinski ostaci unutar RNA poli(A) repova

Smatralo se da su RNA poli(A) repovi sastavljeni samo od A ostataka. Kroz TAIL-seq, pervazivne 3′ end modifikacije G i U pronađene su u RNA poli(A) repovima sa vitalnom ulogom u stabilnosti mRNA u ljudskim ćelijskim linijama 2,3. Koristeći istu metodu, pokazalo se da je 3′ kraj majčinih transkripata sa kratkom dužinom poli(A) repa uridiliran u GV oocitima miša 10 . Međutim, ne-T signal se ne može precizno pozvati unutar dugog dijela od T korištenjem algoritma baznog pozivanja u TAIL-seq metodi. Stoga se ne-T signal može pozvati samo na samom 3′ kraju korištenjem TAIL-seq. Naša metoda nema ovo ograničenje. Štaviše, više prolaza jednog šablona generišu visoko precizan CCS transkripta, uključujući baze unutar poli(A) repova. Stoga, PAIso-seq nam daje priliku da analiziramo detaljnu kompoziciju baze unutar poli(A) repova. Koristili smo visoki prag koji zahtijeva najmanje 10 prolaza za jedan molekul kako bismo osigurali tačnost sekvence zvane 19,32. Iznenađujuće, postoje široko rasprostranjeni U, G i C unutar tijela mRNA poli(A) repova osim onog koji se može vidjeti na 3′ kraju unutar 17% transkripata (slika 5a). Kada smo pogledali Us, Gs ili Cs u poli(A) repovima različite dužine, vidjeli smo da su U modifikacije češće u transkriptima s kratkim repovima, dok su G i C modifikacije češće u relativno dugim repovima (Sl. 5b). Općenito, modifikacije se češće vide blizu 5′ kraja poli(A) repova, dok G modifikacija ima još jednu očiglednu obogaćenu poziciju blizu 3′ kraja repova (dodatna slika 4). Osim toga, otkrili smo da postoje dva, tri, pa čak i četiri (iako s relativno niskom frekvencijom) kontinuirana neadenozinska ostatka unutar poli(A) repova, pored pojedinačnih U, C ili G koji su češći ( Slika 5c). Kao primjer, otkrili smo poli(A) repove Rcor1 (prolaz = 34), Nploc4 (Prolaz = 18), i Ngrn (Prolaz = 10) transkripta sa više neadenozinskih ostataka unutar tela poli(A) repova (slika 5c). Odnos transkripata koji sadrže ne-A modifikacije gena pokazuje dobru korelaciju između replika (dopunska slika 5).

Široko rasprostranjeni neadenozinski ostaci unutar tijela poli(A) repova. a Učestalost CCS očitavanja koja sadrži unutrašnje ne-A nukleotide unutar poli(A) repa. b Odnos CCS očitavanja koja sadrži unutrašnje ne-A nukleotide (lijeva ploča) i učestalost neadenozinskih ostataka u CCS očitavanjima različite dužine repa poli(A) (desni panel). c Broji mono- i oligo-neadenozinskih ostataka (U, C i G). d Tri primjera CCS očitavanja s neadenozinskim ostacima u tijelu poli(A) repova, Rcor1 (prolaz = 34), Nploc4 (Prolaz = 18), i Ngrn (Prolaz = 10). e Učestalost ne-A ostataka u podacima GV oocita i poli(A) spike-in. f Hipotetički modeli CCS očitavanja sa T30VN RT prajmerom usidrenim na kraju 3′-UTR (a) ili unutar tijela poli(A) repova (b). g Procenat dva različita T30VN RT modela sidrenja prajmera kako je otkriveno pomoću CCS očitavanja iz Iso-seq podataka. h Učestalost različitih NV-sidrenih mjesta otkrivenih unutar tijela poli(A) repova. Iznad svake trake prikazan je broj otkrivenih događaja. i Primjeri CCS očitavanja sa T30VN RT prajmerom usidrenim na kraju 3′-UTR (a) ili unutar tijela poli(A) repova (b). Pristupni broj CCS očitavanja prikazan je na lijevoj strani. CCS je očitao i.d. je prikazano u sredini. Model CCS čitanja prikazan je na desnoj strani. Broj iza A označava oligo A sa datim brojem adenozina.

Kako bismo bili sigurni da modifikacija koja nije A koja se ovdje vidi nije uzrokovana greškama unesenim tokom izgradnje biblioteke, provjerili smo podatke sintetičkog poli(A) + cDNA spike-in nakon RT tokom koraka pripreme biblioteke. Rezultat je pokazao oko 0,02% neusklađenosti unutar spike-in poli(A) sekvenci koje imaju prolaze ≥10 (59 od 283,007 baza) (slika 5e). Ovo je mnogo niže od oko 0,7% ne-A modifikacija koje se vide u poli(A) repovima. Stoga, ne-A modifikacije koje opažamo ne mogu biti iz koraka nakon RT. Poznato je da RT enzimi koji se koriste u ovoj metodi, SuperScript II, uvode oko 1/42,000 (0,0024%) nepodudarnosti tokom RT reakcije 33,34 . Iako su RT enzimi mogli povećati šansu za uvođenje pomaka okvira kada se radi o homopolimerima 33 , to neće stvoriti više neusklađenosti. Stoga postoje interne modifikacije poli(A) repa koje su propuštene u prethodnoj analizi zbog tehničkih ograničenja, iako vrlo mali dio njih otkrivenih ovdje može biti uzrokovan RT greškama. Da bismo dodatno potvrdili da ne-A ostaci nisu artefakti, istražili smo kodirajuće sekvence s oligo A i oligo T tragovima više od deset baza. Ove homopolimerne sekvence su kodirane u genomu, stoga, ako postoje nepodudarnosti u podacima, vjerovatno su uzrokovane greškama unesenim tokom RT koraka ili koraka sekvenciranja. Postoji osam takvih regija unutar genoma pokrivenih sa 20 čitanja u našem skupu podataka. Ukupno su sekvencirane 243 baze, nije detektovan SNV (single-nucleotide varijacija), što ukazuje na nekoliko grešaka ukoliko se ne unesu greške tokom RT koraka.

Da bismo potvrdili postojanje ne-A modifikacija korištenjem informacija neovisnih o sekvenciranju, pogledali smo informacije o uparivanje baza između RNA i RT prajmera. Tradicionalno, cDNA Iso-seq pune dužine na PacBio platformi koristi 5′-adaptor-T30VN-3′ oligo kao RT prajmer za reverznu transkripciju V (A, C ili G) i N (A, T, C ili G) se koriste za pričvršćivanje RT prajmera na kraj 3′-UTR da bi se odbacili poli(A) repovi tokom reverzne transkripcije. Smatramo da se RT prajmer može pričvrstiti za ne-A ostatke u sredini poli(A) repova ako su ne-A ostaci prisutni u sredini repa. Ovo implicira hipotezu koja se može testirati da će uparivanje baza između poli(A) unutrašnjeg ne-A ostatka i VN u RT prajmeru rezultirati uključivanjem poli(A) sekvenci prije VN (slika 5f). Da bismo ovo testirali, nasumično smo odabrali nedavno objavljeni Iso-seq skup podataka iz bibera (eksperiment CRX041331 pod pristupnim brojem CRA001412) 35 . Zaista, rezultat je onakav kakav smo pretpostavili. Postoji oko 5% transkripata koji pokazuju VN bazne parove sa nukleotidima unutar sredine poli(A) repova (Slika 5g), pri čemu je pojedinačni non-A češći od dvostrukog ne-A (slika 5h). Primeri ovih čitanja usidrenih u srednjem RT prajmeru prikazani su na slici 5i. Uparivanje baza RT prajmera odvija se prije RT reakcije, što potvrđuje da postoje ne-A ostaci unutar tijela poli(A) repova. Iako je RT vrlo neefikasan (2–6 × 10 -4 relativna normalna stopa) da se proširi na prajmere s neusklađenjima na samom 3′ kraju 36 , ne možemo isključiti mogućnost da su neki od srednjih RT događaja sidrenja prajmera koji su ovdje otkriveni rezultat pogrešnog prajminga u sredini čistih A repova. Ovi podaci potvrđuju da ne-A modifikacije unutar poli(A) repova vjerovatno nisu uzrokovane sekvenciranjem ili artefaktima pripreme biblioteke.

Ovi nalazi pokazuju da PAIso-seq omogućava tačnu dekompoziciju poli(A) repova, otkrivajući široko rasprostranjene U, G i C modifikacije unutar tijela mRNA poli(A) repova, što ukazuje da su mRNA poli(A) repovi daleko složeniji od šta se ranije mislilo.

Poli(A) repovi u drugim ćelijama

Gornja dužina repa poli(A) i sastav baze su oko jednog tipa jedne ćelije, mišje GV oocite. Da bismo potvrdili PAIso-seq metodu u drugim tipovima ćelija, upotrijebili smo uzorak jetre štakora koji nikada nije bio analiziran na aspektu repa mRNA poli(A) i uspješno smo dobili podatke o PAIso-seq (dodatna slika 1a, c). Možemo vidjeti da uzorak jetre pacova ima vrlo različit obrazac globalne dužine repa poli(A) transkripta u usporedbi s mišjim GV oocitima (dopunska slika 6a i slika 2a). Uzorak jetre štakora također sadrži značajan dio transkripata sa ne-A modifikacijama unutar poli(A) repova (dopunska slika 6b). Ovi podaci potvrđuju da je PAIso-seq široko primjenjiv na uzorke iz različitih ćelija i različitih vrsta i da će biti moćan alat za seciranje regulacije kroz RNA poli(A) repove u različitim biološkim procesima.

Jednoćelijski PAIso-seq

Koraci izgradnje PAIso-seq biblioteke su veoma efikasni. Mislimo da bi to moglo biti primjenjivo na pojedinačne ćelije. Stoga smo testirali PAIso-seq u 15 pojedinačnih GV uzoraka oocita sa barkodiranim prajmerom na kraju. Uzorci se skupljaju za sekvencioniranje. Podaci o jednoj ćeliji pokazali su sličnu količinu transkripata i obrazac raspodjele dužine poli(A) kao i veliki uzorak (sl. 2a–c). Podaci od 15 jednoćelijske ćelije su takođe uporedivi sa masovnim podacima ćelija u merenju dužine repa poli(A) i modifikacija koje nisu A (slika 6a, b). Na nivou pojedinačnog gena, možemo vidjeti da dužina repa poli(A) mjerena iz svake pojedinačne ćelije dobro korelira s onom iz ćelija u masi (slika 6c i dodatna slika 7). Ovi podaci pokazuju da je PAIso-seq sposoban da se nosi sa jednom GV oocitom koja sadrži oko 0,3-0,5 ng ukupne RNK 37, nudeći priliku za proučavanje globalnih RNA poli(A) repova u rijetkim ćelijama.

Jednoćelijski PAIso-seq za GV oocite. a Globalne poli(A) distribucije dužine repa svih otkrivenih CCS očitavanja (prolaz ≥10) u jednoj GV oociti C1 (ćelija 1), C2, C4, C7, C15 i GV rep.2, i jednoj kombinaciji GV oocita (SCGV com.) skupovi podataka. Srednja dužina svakog poli(A) repa transkripta prikazana je kao crvena tačka i broj ispod grafikona violine. b Učestalost ne-A ostataka u pojedinačnim GV oocitima C1, C2, C4, C7, C15, GV rep.2 i SCGV kom. skupove podataka. c Spearmanova korelacija dužine repa gena poli(A) između jednog GV oocita C4 i GV rep.2 (gornja ploča, n = 928), pojedinačna GV oocita C15 i GV rep.2 (srednja ploča, n = 566), skupovi podataka C15 i C4 pojedinačnih GV oocita (donji panel, n = 597) skupova podataka. Plava linija predstavlja liniju linearne regresije. Svijetlosiva oblast predstavlja interval pouzdanosti regresije. U analizu su uključeni geni sa najmanje četiri transkripta u svakom od skupova podataka.


METODE

Identifikacija poli(A) mjesta u genomima korištenjem cDNA/EST i sekvenci u tragovima

Uzeli smo sve cDNA/EST sekvence navedene u UniGene bazama podataka ljudi, miša, pacova, pilića i zebrica iz NCBI (verzije iz jula i avgusta 2005.) i uskladili ih sa sekvencama genoma preuzetim sa UCSC Genome Bioinformatics Site (web stranica autora za ljude, hg17 , mm5 za miša, rn3 za pacova, galGal2 za piletinu i danRer1 za zebricu) koristeći BLAT ( 21). Poly(A) lokacije su identificirane raščlanjivanjem visećih krajeva poravnanja korištenjem metode opisane u (13). Svi interni kandidati za pripremanje su odbačeni. Sekvence tragova ljudi, miša, pacova i zebrice preuzete su iz NCBI Trace Archive i korištene su za proširenje terminalnih poli(A/T) sekvenci u cDNA/EST kao što je opisano u (22).

Grupiranje poli(A) lokacija prema lokacijama i genima

Grupirali smo poli(A) lokacije koje pripadaju istom genu koristeći NCBI UniGene bazu podataka. Kako bismo eliminirali anti-sense transkripte i druge pogrešne transkripte, očistili smo UniGene kante (ili klastere) kao što je prikazano na Dodatnoj slici 1. Očišćene UniGene kante se nazivaju CLUB-ovi (Cleaned UniGene Bin). Ovaj korak je prvo izveden odabirom reprezentativne sekvence nazvane inicijator za CLUB, nakon čega je slijedilo iterativno uključivanje cDNA/EST-ova koji imaju istu transkripcijsku orijentaciju kao i inicijator i koji se preklapaju sa cDNA/EST-ovima koji su već u CLUB-u. Inicijatori su odabrani na osnovu redosleda RefSeqs > other cDNK > ESTs. Sekvence uključene u CLUB nazivaju se članovima CLUB-a. Jedna UniGene Bin može imati više od jednog CLUB-a. Da bi se maksimizirao broj pratećih cDNA/EST sekvenci za poli(A) mjesto, 3′ krajevi sekvenci bez poli(A/T) repova su upoređeni sa identificiranim poli(A) mjestima. Smatra se da cDNA/EST podržava poli(A) mjesto ako je njegov 3′ kraj blizu poli(A) mjesta unutar 24 nt. Transkripti sa nepoznatom transkripcionom orijentacijom se dodeljuju kao pridruženi članovi CLUB-a ako je jedan od njihovih krajeva sekvence blizu poli(A) mesta unutar 24 nt, a pretpostavljena transkripciona orijentacija zasnovana na poli(A) mestu nije u suprotnosti sa CLUB-om . Oni su takođe uključeni kao podrška cDNK/EST-ovima. Poli(A) lokacije koje se nalaze unutar 24 nt jedna od druge, zbog heterogenog cijepanja, iterativno su grupisane zajedno u smjeru 5′ do 3′. Položaj srednjeg mjesta cijepanja u klasteru se koristi za predstavljanje klastera. Dakle, u PolyA_DB 2, poly(A) ID lokacije se sastoji od tri dijela, tj. UniGene ID-a, CLUB-a i broja lokacije. Na primjer, Hs.44402.1.46 je zasnovan na UniGene ID-u Hs.44402, CLUB-u broj 1 i broj lokacije 46. Informacije o genima su preuzete iz NCBI baze podataka o genima (verzije iz avgusta 2005.) i dodijeljene CLUB-ovima na osnovu odnosa između genskih ID-ova i RefSeq sekvence u CLUBovima.

Anotacija od cis-elementi

Koristili smo matrice za bodovanje specifične za poziciju (PSSM) od prethodno identificiranih 15 cis-elementi za pretragu poli(A) regiona ( 9). Za svaku matricu smo izveli sve moguće pozitivne rezultate za uparivanje niza iste veličine. 25., 50. i 75. percentili su korišteni za usporedbu ostalih podudaranja niza. Za sve sekvence koje okružuju ljudska i mišja poli(A) mjesta, uporedili smo njihove rezultate podudaranja s referentnim vrijednostima. Podudaranje se smatralo 'vrlo jakim' ako je njegov rezultat bio iznad 75. percentila 'jako' za 50.-75. percentil 'slab' za 25.-50. percentil 'veoma slabo' za ispod 25. percentila i 'nema podudaranja' za negativan rezultati.

Pronalaženje sinteničkih regija za ljudska poli(A) mjesta

Koristili smo osmosmjerna poravnanja genoma sa UCSC Genome Bioinformatics Site kako bismo dobili sinteničke regije za ljudska poli(A) mjesta. Osmosmjerne datoteke za poravnanje genoma sadrže genome Homo sapiens (čovjek), Pan trogloditi (šimpanza), Canis familiaris (pas), Mus musculus (miš), Rattus norvegicus (pacov), Gallus gallus (piletina), Danio rerio (zebra) i Takifugu rubripes (Puffer riba). Prvo smo raščlanili blokove poravnanja koji se preklapaju od -300 do +300 nt regiona koji okružuje ljudska poli(A) mjesta i identificirali odgovarajuće pozicije u drugim genomima ako su imali sekvence usklađene s regijom. Zatim smo preuzeli genomske sekvence iz svih vrsta koje su bile u skladu, uključujući i ljudske, i ponovo poravnale sekvence sa CLUSTALW (23). Također smo označili sve cDNK/EST-ove iz vrsta koje se slažu čiji se krajevi sekvence nalaze unutar 24 nt od ljudskih poli(A) mjesta u poravnanjima. Ove informacije mogu podržati očuvanje poli(A) lokacija.

Baza podataka i web stranica

Podaci u bazi podataka se pohranjuju u relacijsku bazu podataka, implementiranu sa MySQL. PHP i Perl se koriste za web interfejs. Bioperl moduli se koriste za grafičko predstavljanje sekvenci (24). Upiti su zasnovani na ID-ovima gena, UniGene ID-ovima, CLUB ID-ovima i Site ID-ovima. Velika serija preuzimanja su dostupna na zahtjev.


Metode

Biljni materijali i uslovi rasta

The P. trichocarpa Nisqually-1 klon je držan u stakleniku kako je opisano [29]. Za temperaturne tretmane, aseptične reznice P. trichocharpa (8-10 cm) držani su u podlozi za ukorjenjivanje [30] oko 30 dana prije tretmana. Komora za rast je bila u uslovima dugog dana (16 sati svjetlosti/8 sati mraka) na 24 °C i 40% vlažnosti. Za izvođenje niskotemperaturnog tretmana, zamrzivač je kontroliran temperaturnim senzorom (PURUI G6000, Ningbo, Kina). Za izvođenje visokotemperaturnog tretmana, inkubator je postavljen na odgovarajuću temperaturu prije eksperimenta kako bi se stabilizirala unutrašnja temperatura. Za pripremu uzorka sakupljene su cijele sadnice od najmanje tri jedinke.

Izgradnja PAS-seq biblioteke, sekvenciranje i obrada podataka

Za konstrukciju biblioteke sekvenciranja, ukupna RNK je tretirana sa RQ1 DNase (Promega, Madison, SAD) da bi se uklonila DNK. Kvalitet i količina pročišćene RNK određivani su mjerenjem apsorbancije na 260 nm/280 nm (A260/A280) korištenjem smartspec plus (BioRad, Minhen, Njemačka). Integritet RNK je dalje verifikovan elektroforezom u 1,5% agaroznom gelu. Za svaki uzorak, 5 μg ukupne RNK je korišteno za pripremu PAS-seq biblioteke korištenjem SMART RT sistema. Ukratko, poliadenilirane mRNA su pročišćene sa oligo (dT)-konjugiranim magnetnim kuglicama (Invitrogen, SAD). Prečišćena RNK je fragmentirana, a reverzna transkripcija je izvedena sa modifikovanim RT prajmerom koji sadrži dT18 i dva dodatna sidrena nukleotida na 3′ terminusu. Zatim je DNK sintetizirana sa oligo DNK za označavanje terminala koristeći ScriptSeq™ v2 RNA-Seq Library Preparation Kit (Illumina, SAD). cDNK su pročišćene i amplificirane, a PCR proizvodi koji odgovaraju 300-500 bp su pročišćeni, kvantificirani i pohranjeni na -80 °C prije sekvenciranja. Za sekvencioniranje visoke propusnosti, biblioteke su pripremljene slijedeći uputstva proizvođača i primijenjene na Illunima HiSeq X Ten sistem za 150 nt sekvenciranje uparenih krajeva. Očitavanja su filtrirana radi provjere kvaliteta, a samo krajnje 1 sekvence čistih očitanja korištene su za nizvodne analize. Sekvenciranje i početnu obradu očitavanja izvršio je ABlife Inc. (Wuhan, provincija Hubei, Kina). Svi podaci o sekvenciranju deponovani su pod Nacionalnim centrom za informacije o biotehnologiji bioprojekt pristupa PRJNA61765.

Mapiranje sekvence i PAC identifikacija

Referentni genom od Populus trichocarpa (verzija 3.1) preuzeta je sa Phytozome [31] https://phytozome.jgi.doe.gov). Mapiranje čitanja je izveo TopHat2 dozvoljavajući 2 nepodudaranja [32]. Da bi se dobila obilje ekspresije, izračunata je vrijednost RPKM (čitanja po kilobazi gena na milion čitanja) [33].

Za identifikaciju klastera polyA-site (PAC), 3′ mapirana polyA čitanja su prvobitno određena kao poliA lokacije, a zatim kvantificirana na osnovu metode Tag Per Million (TPM) [TPM (PAC) = očitavanja mapirana na polyA lokaciju (PAC) *1.000.000/ukupno čitanja]. Identifikacija PAC-a je izvršena korištenjem CAGEr paketa [34] ukratko, poliA mjesta unutar 20 nt sa TPM preko 0,5 su grupisana. PAC unutar 100 nt u različitim PAS-Seq bibliotekama je dalje grupiran da bi se generirale PAC sekvence (Supple. Dataset 1). Za APA analizu, PAC sekvence sa samo jednim poliA mjestom ili TPM manjim od 3 su filtrirane. Ukupne PAC lokacije su nezavisno određene kroz češljanje očitavanja sekvenciranja sa TPM odsjekom od 5. Da bi se identificirali geni sa pomaknutim PAC-ovima, CAGEr je izračunao razliku PAC lokacija da bi se dobio rezultat pomaka (Supple. Dataset 2, 3). Kolmogorov-Smirnov test je izveden da bi se identifikovali značajni pomaci PAC-a sa str-vrijednost < 0,01 (Dopunski skup podataka 2, 3).

Analiza nukleotidnog sastava i potpisa sekvenci

Za analizu motiva korišteni su gore navedeni PAC-ovi za svaki uzorak. I 50 bp uzvodno i nizvodno sekvence svakog PAS-a su ekstrahovane. Za analizu raspodjele nukleotida izračunat je sastav svakog PAS-a na svakoj poziciji. A motivi sekvence su analizirani pomoću SignalSleuth2 [28] sa sljedećim opcijama: k = 6 (gdje je k dužina motiva) i top 30 motiva.

Za analizu izazvanu stresom, sekvence gena sa pomerenim PAC-ovima su ekstrahovane u skladu sa informacijama o poziciji (Supple. Dataset 4, 5) korišćenjem interne python skripte. PAC-ovi za svaki tretman su podijeljeni u dvije grupe: jedna je bila PAC-ovi pod kontrolom, a druga pod uslovima liječenja. Analiza motiva sekvence izvedena je korištenjem SignalSleuth2 kao što je gore spomenuto, a za analizu je korištena samo udaljenost pomaka PAC-a preko 50.

Analiza funkcionalnog obogaćivanja

Za funkcionalnu analizu pomaknutih gena, informacije o napomenama iz Gene Ontology i Kyoto Encyclopedia of Genes and Genomes of P. trichocarpa dobijeni su geni. Obogaćivanje GO termina i KEGG puta je identifikovano na osnovu značaja hipergeometrijskih testova, i dalje ispravljeno od strane FDR (Hochberg). Ispravljeno str-vrijednosti manje od 0,05 utvrđene su kao značajno obogaćivanje. Značajno obogaćeni GO termini su kategorizirani u molekularnu funkciju, biološki proces i ćelijsku komponentu kao što je navedeno u Suppleu. Skup podataka 6. Za KEGG analizu, omjer obogaćivanja je izračunat kao: Omjer obogaćivanja svakog KEGG puta = podskup gena / ukupan broj gena puta.


Otkriće gena za biosintezu ginsenozida analizom tagova sekvence eksprimiranih ginsenga

Oznake ekspresiranih sekvenci (EST) pružaju vrijedan alat koji se može koristiti za identifikaciju gena u biosintezi sekundarnog metabolita. ginseng (Panax ginseng C.A Meyer) je ljekovita biljka koja akumulira ginsenozide u korijenu. Sekvencirali smo 11.636 EST iz pet biblioteka ginsenga kako bismo stvorili genski resurs za biosintezu ginsenozida, za koje se smatra da su glavna aktivna komponenta u korijenu. Samo 59% EST-ova ginsenga pokazalo je značajnu homologiju sa prethodno poznatim polipeptidnim sekvencama. Proteini odgovora na stres i patogen bili su najzastupljeniji u 4-godišnjem korijenu ginsenga. EST uključeni u biosintezu ginsenozida identificirani su pretraživanjem ključnih riječi BLASTX rezultata i pretraživanjem domena ginseng EST. Identificirali smo 4 kandidata za oksidoskvalen ciklazu koji su uključeni u reakciju ciklizacije 2,3-oksidoskvalena, 9 devet kandidata za citokrom P450 i 12 glikoziltransfernih kandidata, koji mogu biti uključeni u modifikaciju triterpenske kičme.

Ovo je pregled sadržaja pretplate, pristup preko vaše institucije.


Prošireni podaci Slika 1 Dodatna karakterizacija zastoja ribosoma in vitro.

a, Drugi primjer nastalih lančanih proizvoda koji su rezultat in vitro translacije iteriranih AAG ili AAA lizinskih kodona u lizatu ljudskih ćelija, kao na slici 1a. Naznačeni su položaji nastalih lančanih proizvoda koji sadrže 4, 9 ili 12 lizinskih ostataka. b, Analiza ponovljenih kodona AAG u odnosu na AAA za zastoj u lizatu retikulocita kunića. Translaciona reakcija je izvedena 20 minuta nakon čega je proporcija zaustavljenih proizvoda procenjena relativnim količinama peptidil-tRNA u odnosu na polipeptid pune dužine. 'Pozadina' od

20% peptidil-tRNA čak i u odsustvu zastoja je zbog neuspjelog završetka na stop kodonu, koji se nalazi unutar nekoliko nukleotida od 3’ kraja mRNA. Kasniji in vitro eksperimenti zastoja sa dužim 3’UTR koji strši izvan mRNA kanala pokazali su poboljšanu efikasnost terminacije (

95%). Previše kratak 3’UTR vjerovatno čini mRNA fleksibilnijom u mRNA kanalu i manje sposobnom da regrutuje eRF1. Više eksperimenata kao što je ovaj kvantifikovano je da bi se dobio graf prikazan na slici 1b. c, Vremenski tok pojavljivanja proizvoda pune dužine (FL) za konstrukcije koje sadrže naznačeni broj iteriranih AAG ili AAA kodona. Translacija je sinhronizovana tako što je prvo pauzirao ribozom na nizu retkih leucinskih kodona koji su prethodili polibaznom kodirajućem nizu, a zatim ponovo pokrenuli translaciju u trenutku 0 dodavanjem tRNA. Srednja vrijednost ± SEM za svaku vremensku tačku izračunata iz dva eksperimenta je nacrtana.

Prošireni podaci Slika 2 Cryo-EM analiza ribozoma zaustavljenih na poli(A).

a, Reprezentativni mikrofotografija poli(A)-zaustavljenih ribozoma korištenih za analizu pojedinačnih čestica. Skala bar je 50 nm. b, Šema obrade podataka koja se koristi za određivanje strukture u Relionu 3.0. 3D klasifikacija to otkriva

90% aktivnih ribozoma je u kanonskom stanju sa P/P tRNA dok

10% se vidi u rotiranom stanju sa tRNK hibridnog stanja A/P i P/E. Većina ribozoma u rotiranom stanju također sadrži gustoću za prethodni ribozom i stoga predstavljaju ribozome koji su se sudarili sa poli(A)-zaustavljenim ribozomom. c, krivulja korelacije Fourierove ljuske (FSC) konačne karte koja ilustruje ukupnu rezoluciju od 2,8 Å.

Prošireni podaci Slika 3 Karakterizacija cryo-EM karte.

a, Lokalna rezolucija poli(A)-ustavljenog ribosoma presečenog kroz centar. Naznačeni su položaji ključnih elemenata. PTC: peptidil-transferazni centar. Umetak (desno) naglašava visoku lokalnu rezoluciju na PTC-u i centru za dekodiranje. b, Presijeca mapu gustine u ravni izlaznog tunela polipeptida (lijevo) i kanala mRNA (desno). Kontinuirana gustina lanca u nastajanju koja odgovara mješavini dužina poli-Lys i položaja Cα konturirana je na različitom nivou od ostatka karte i prikazana je magenta, a gustina mRNA je prikazana crvenom bojom. tRNA P mjesta je zelena, 40 S podjedinica je žuta, a 60 S podjedinica svijetloplava.

Prošireni podaci Slika 4. Eksperimentalna EM gustina za Lys-tRNALys P-mesta,3.

Map-to-model odgovara za P-mjesto Lys-tRNA(lys,3) sa AAA kodonom mRNA na mjestu P i prvom amino kiselinom (lizinom) polipeptida u nastajanju. Modifikacije baze na pozicijama 34 i 37 tRNA su prikazane unutar krio-EM gustine.

Prošireni podaci Slika 5 Prikazi gustine mRNA u EM mapi ribozoma sa zastojem od poli(A).

Mapa gustine seče kroz ribozom u ravni koja otkriva centar za dekodiranje i prikazuje mRNA unutar male podjedinice. Velika i mala podjedinica (plava i žuta, respektivno), tRNA na P-mjestu (zelena) i mRNA (crvena) su obojene. Umetak prikazuje uvećano područje mRNA kanala, što ilustruje da je poli(A) mRNA uređena kroz veći dio kanala. Donja ploča prikazuje gustinu mRNA na P- i A-mjestima u konačnoj prečišćenoj i izoštrenoj mapi. mRNA je dobro uređena na P-mjestu zbog uparivanja baza sa tRNA P-mjesta, a uređena je na A-mjestu zbog stabilizacijskih interakcija sa rRNK kao što je prikazano na slici 3.

Prošireni podaci Slika 6 Gvanozin prekida intrinzičnu spiralnu sklonost poli(A).

Ucrtani su spektri kružnog dihroizma (CD) AAAAAA (crveni), AAGAAG (plavi) i AAGGAA (zeleni) RNA oligonukleotida. Ovi spektri su usrednjeni iz 9 nezavisnih merenja izvršenih na istim uzorcima. AAAAAA oligo prikazuje karakteristiku CD signature za spiralnu konformaciju poli(A), kao što je prethodno opisano 52. Uvođenje gvanozina značajno narušava ovu spiralnu strukturu.

Prošireni podaci Slika 7 Poređenje geometrije peptidil-tRNA u različitim RNC strukturama sisara.

Prikazane su mape EM gustine za peptidil-tRNA region na PTC-u za naznačene strukture. Prikazani su modeli za ribozom sa poli(A) zastojem i RNC zaustavljen na stop kodonu sa dominantno negativnim eRF1 AAQ mutantom (PDB kod 5LZV). 5LZV RNC je u geometriji kompetentnoj za peptidil-transfer (ili u ovom slučaju, oslobađanje peptida putem eRF1). Struktura od RNC-a sa zastojem didemnina-B sadrži mješavinu novonastalih lanaca zaustavljenih na različitim pozicijama. Stoga, gustina lanca u nastajanju predstavlja prosjek raznih peptidil-tRNA. Imajte na umu da se model lanca u nastajanju iz 5LZV dobro uklapa u mapu gustine, što ukazuje da većina peptidil-tRNA preuzima ovu konfiguraciju tokom aktivnog elongacije. Geometrija za poli(A) peptidil-tRNA se nedvosmisleno razlikuje od ove optimalne geometrije. Lys i Val se odnose na bočne lance lizina i valina modeliranih lanaca u nastajanju. Zvjezdice označavaju gustinu za bočne lance koji nisu prikazani.


3&prime Poly-A rep

Dok se RNA polimeraza II još uvijek transkribuje nizvodno od pravog kraja gena, pre-mRNA se cijepa proteinskim kompleksom koji sadrži endonukleazu između AAUAAA konsenzus sekvence i sekvence bogate GU. Ovo oslobađa funkcionalnu pre-mRNA iz ostatka transkripta, koji je još uvijek vezan za RNA polimerazu. Enzim koji se zove poli (A) polimeraza (PAP) dio je istog proteinskog kompleksa koji cijepa pre-mRNA i odmah dodaje niz od približno 200 A nukleotida, nazvan poli (A) rep, na 3&prime kraj upravo rascijepljenu pre-mRNA. Poli (A) rep štiti mRNA od degradacije, pomaže u izvozu zrele mRNA u citoplazmu i uključen je u vezivanje proteina uključenih u pokretanje translacije.

Slika ( PageIndex <1> ): Poli (A) polimeraza dodaje 3&prime poli (A) rep pre-mRNA.: Pre-mRNA se odcjepljuje od ostatka rastućeg transkripta prije nego što RNA polimeraza II prestane da se transkribira. Ovo cijepanje se vrši pomoću proteinskog kompleksa koji sadrži endonukleazu i koji se vezuje za AAUAAA sekvencu uzvodno od mjesta cijepanja i za sekvencu bogatu GU ​​nizvodno od mjesta reza. Neposredno nakon cijepanja, poli (A) polimeraza (PAP), koja je također dio proteinskog kompleksa, katalizira dodavanje do 200 A nukleotida na 3&prime kraj upravo rascijepljene pre-mRNA.


Mogu li PolyA repovi biti unutar oznaka izražene sekvence? - Biologija

Od analize sekvence antigenskih peptida do mogućeg mehanizma za cijepanje proteazoma

Yael Altuvia i Hanah Margalit
Hebrejski univerzitet, Jerusalim, Izrael

Proteazomsko cijepanje proteina je prvi korak u procesuiranju većine antigenskih peptida koji se predstavljaju citotoksičnim T stanicama. Ipak, njegova specifičnost i mehanizam nisu u potpunosti shvaćeni. Da bismo identifikovali željene sekvence signala koji se koriste za stvaranje antigenskih peptida od strane proteazoma, vršimo rigoroznu analizu ostataka na krajevima i bočnim regionima prirodno obrađenih peptida eluiranih iz MHC klase I molekula. Naši rezultati sugeriraju da i C-terminus (pozicija P1 mjesta cijepanja) i njegova neposredna bočna pozicija (P1') posjeduju signale cijepanja i da su njihovi doprinosi aditivni. N-termini peptida pokazuju ove signale samo slabo, u skladu s prethodnim nalazima da antigene peptide može cijepati proteasom s N-terminalnim ekstenzijama. Međutim, uspjeli smo indirektno pokazati da mjesta cijepanja N-terminala pokazuju iste preferirane signale na poziciji P1'. Ovo implicira da ostaci na poziciji P1' mjesta cijepanja učestvuju u određivanju specifičnosti cijepanja, pored već poznatog doprinosa položaja P1. Naši rezultati se odnose na stvaranje antigenskih peptida i gole direktne implikacije na mehanizam proteazomskog cijepanja. Predlažemo model za mehanizam proteazomskog cijepanja kojim su oba kraja cijepanih fragmenata određena istim signalima cijepanja, uključujući poželjne ostatke na P1 i P1' pozicijama mjesta cijepanja. Pokazana je kompatibilnost ovog modela sa eksperimentalnim podacima o produktima razgradnje proteina i stvaranju antigenskih peptida.


Mrežna baza podataka biomolekularne interakcije (BIND) kao resurs i istraživački alat

G.D. Bader, T. Pawson i C.W.V. Hogue
Istraživački institut Samuel Lunenfeld/Univerzitet u Torontu, Toronto, Ontario, Kanada

Svaki protein izražen u ćeliji može stupiti u interakciju s različitim različitim proteinima i drugim molekulima u toku svoje funkcije. Interakcije protein-protein često su posredovane modularnim proteinskim domenima. Jedan primjer je SH3 domena koja vezuje motiv bogat prolinom. Ove "interakcione mreže" formiraju konvencionalne signalne kaskade, komplekse za aktivaciju transkripcije, mehanizme za kontrolu vezikula, ćelijski rast i sisteme diferencijacije, između ostalih ćelijskih mašina. Poznate interakcije ćelijskih proteina će na kraju sadržavati više informacija od Projekta ljudskog genoma. Predstavljamo specifikaciju podataka za novu javnu bazu podataka pod nazivom BIND (Biomolekularna interakciona mreža podataka). Ova baza podataka će obuhvatiti složenost informacija o interakciji prikupljenih kroz eksperimentalne studije biomolekularnih interakcija. Informacije o interakciji će doći iz literature, podnosilaca i drugih baza podataka. BIND sadrži zapise o interakcijama, molekularnim kompleksima i putevima. Zapis interakcije zasniva se na interakciji između dva objekta. Objekt može biti protein, DNK, RNK, ligand ili molekularni kompleks. Opis interakcije obuhvata ćelijsku lokaciju, eksperimentalne uslove koji se koriste za posmatranje interakcije, očuvani niz, molekularnu lokaciju interakcije, hemijsko delovanje, kinetiku, termodinamiku i hemijsko stanje. Molekularni kompleksi su definirani kao skupovi više od dvije interakcije koje čine kompleks, s dodatnim deskriptivnim informacijama kao što je kompleksna topologija. Putevi se definiraju kao skup više od dvije interakcije koje formiraju put, s dodatnim deskriptivnim informacijama kao što je faza ćelijskog ciklusa.


Automatska komparativna analiza sedamnaest kompletnih mikrobnih genoma

Arvind K. Bansal
Odsjek za matematiku i računarstvo, Državni univerzitet Kent, Kent, Ohajo, SAD

Kako sekvencirani genomi postaju sve veći i sekvenciranje postaje brže, postoji potreba da se razviju precizne automatizovane tehnike poređenja genoma i baze podataka kako bi se olakšalo izvođenje identifikacije funkcionalnosti genoma enzima, pretpostavljenih operona i metaboličkih puteva i da bi se izvela filogenetska klasifikacija mikroba. Ovaj rad [3] modificira i proširuje automatiziranu tehniku ​​poređenja genoma u paru [1, 2] koja se koristi za identifikaciju ortologa i genskih grupa za izvođenje ortolognih gena u grupi genoma, za identifikaciju gena sa očuvanom funkcionalnošću i za identifikaciju gena. specifične za grupe genoma.Sedamnaest mikrobnih genoma arhiviranih na ftp://ncbi.nlm.nih.gov/genbank/genomes upoređeno je korištenjem proširene tehnike za izvođenje ortologa, ortolognih genskih grupa, duplikacija, fuzije gena, gena sa očuvanom funkcionalnošću i specifičnih gena na grupe genoma.

Rezultati poređenja [3] za E. coli i B. subtilis dva mikroba koja su detaljno istražena u vlažnim laboratorijama u skladu su sa NCBI napomenama. Rezultati otkrivaju da genomi unutar iste porodice imaju veći procenat ortologa i ortolognih genskih grupa u smislu veličine manjih genoma u genomskim parovima. Međutim, parovi genoma sa velikim brojem gena dijele veliki broj ortologa i ortolognih genskih grupa. Postoji veliki broj duplikacija genskih grupa i duplikata pojedinačnih gena. Duplikacija genskih grupa je u velikoj mjeri funkcija veličine genoma, au manjoj mjeri funkcija genoma koji su u istoj porodici. Duplikacija pojedinačnih gena je nasumična za neke genome. Spojeni geni su mali po broju. Oko 85 gena ima očuvanu funkciju. Funkcije mnogih gena uključenih u transkripciju i translaciju su očuvane. 21 gen koji odgovaraju ribosomskim proteinima nemaju ortologe u mikrobima arheja. Genomi arheja međusobno dijele relativno veći postotak ortologa. Postoji veliki broj gena koji su specifični za E. coli i različite podskupine od osam patogena.

Reference
[1] Bansal, A. K., Bork, P., i Stuckey, P., "Automatizirane parne komparacije kompletnih mikrobnih genoma", Matematičko modeliranje i naučno računanje, 9, 1 - 23, (1998).
[2] Bansal A. K., i Bork, P., "Primjena logičkog programiranja za izvođenje novih funkcionalnih informacija u mikrobnim genomima", Bilješke s predavanja iz računarskih nauka, Springer Verlag, 1551, 274 - 289, (1999).
[3] Bansal, A.K., "An Automated Comparative Analysis of Seventeen Complete Microbial Genomes", Bioinformatics, in press.


Heuristički pristup za izgradnju Markovljevih modela za predviđanje gena

John Besemer i Mark Borodovski
Škola biologije, Georgia Institute of Technology, Atlanta

Razvili smo jednostavan pristup za izgradnju nehomogenih Markovljevih modela regiona koji kodiraju proteine ​​koji zahtijevaju samo mali fragment nenaglašene DNK za razliku od velikih skupova eksperimentalno potvrđenih gena ili anonimne sekvence DNK koja se ranije koristila. Ova nova metoda gradi modele 'u hodu' preko našeg web servera za bilo koju sekvencu dužu od 400 nt. Testovi ove metode na 10 kompletnih bakterijskih genoma pomoću programa GeneMark.hmm pokazali su da novi modeli predviđaju u prosjeku 93,1% anotiranih gena, dok modeli napravljeni tradicionalnim metodama predviđaju uporedivih 93,9%. Modeli izvedeni heurističkom metodom mogu se koristiti u slučajevima kada nema dovoljno kodirajuće sekvence na raspolaganju za proizvodnju zvučnih modela kao što su ekstremno mali genomi virusa, plazmida i organela, kao i projekti sekvenciranja na njihovom početku. Daljnja primjena ove metode je u visoko nehomogenim genomima, gdje je optimizacija modela tako da odgovara sastavu lokalne sekvence prednost. Biće predstavljeno i proširenje ovog pristupa za upotrebu kod eukariota i implikacije metode na moguće mehanizme evolucije obrasca upotrebe kodona.


GeneMark.hmm: Alat za pronalaženje gena za eukariotske genome

Mark Borodovski1, John Besemer1, Natalia Milshina2#, George Tarasenko2 i Alexander Lukashin1*
1- Škola biologije, Georgia Institute of Technology, Atlanta, GA, SAD
2 - Gene Pro, Inc. Atlanta, GA, SAD
# - trenutno u Celera Genomics, Rockville, MD, SAD
* - trenutno u Biogene, Cambridge, MA, SAD

Alati za predviđanje gena razvijeni za prokariotske genome općenito su neadekvatni za predviđanje ekson-intron genskih struktura u eukariotskim genomima. GeneMark.hmm algoritam, prethodno opisan za pronalaženje gena u prokariotskoj DNK i korištenje nehomogenih Markov modela u skrivenom Markovljevom modelu s okvirom trajanja, proširen je za analizu eukariotske DNK i pronalaženje podijeljenih gena. Složenija gramatika eukariotske DNK zahtijevala je korištenje, pored Markovljevih modela kodirajuće i nekodirajuće sekvence specifičnih za vrstu, korištenje modela mjesta kao što su modeli za donatorska i akceptorska mjesta i za kontekste startnog i zaustavljanja kodona. Da bi se pravilno koristio Skriveni Markov model sa trajanjem, izvedene su i korišćene distribucije verovatnoće za dužine eksona, introna i međugenskih regiona. GeneMark.hmm program je testiran za duge genomske sekvence nekoliko eukariotskih vrsta kao što su Human, A.thaliana, C. elegans, C.reinhardtti, D. melanogaster i Rice. Uočeno je da je programska izvedba na istom nivou ili viša od drugih često korištenih pronalazača gena za eukariote.


Funkcionalni i evolucijski odnosi HSP60 proteina

Luciano Brocchieri i Samuel Karlin*
Katedra za matematiku, Univerzitet Stanford, Stanford, CA 94305-2125, SAD.

* Djelomično podržano od strane Grant NIH-5R01GM10452-34, NIH-5R01HG00335-11 i NSF-DMS9704552

HSP60 (GroEL) proteini su sveprisutno eksprimirani u eubakterijama i u eukariotskim organelama. Ispitujemo sličnosti HSP60 koristeći našu novu SSPA (Significant Segment Pair Alignment) metodu i program višestrukog niza ITERALIGN, i tumačimo ih s obzirom na funkciju i evoluciju. Proteini HSP60 su uglavnom konzervirani, sa neusklađenim N-terminalnim segmentima u organelarnim sekvencama (vodeći peptidi) i neporavnanim repetitivnim elementima na C-terminusu. Neporavnana područja između blokova poravnanja, tri najduža od oko pet ostataka, općenito su izložena vanjskom zidu kompleksa Anfinsen kaveza. Među najkonzerviranijim regijama je prva ljuska ostataka koja okružuje ATP i Mg++ vezna mjesta. Konzervacija opada u drugoj ljusci. Hidrofobni ostaci koji navodno stupaju u interakciju sa supstratom su visoko konzervirani, potvrđujući njihovu važnu funkcionalnu ulogu. Međutim, drugi skup ostataka koji je uočen u kontaktu sa peptidom bogatim histidinom u kristalu mini-šaperona, slabo je očuvan i očigledno manje relevantan. Veliki broj ostataka naelektrisanja oblaže centralnu šupljinu GroEL-GroES kompleksa u konformaciji oslobađanja supstrata (cis). Ovi ostaci obuhvataju statistički značajan klaster strukturnog naboja unutar monomera koji je visoko konzerviran među sekvencama i vjerovatno će igrati važnu funkcionalnu ulogu u interakciji sa supstratom. U konformaciji vezivanja supstrata (trans) većina ovih ostataka postaje zakopana između monomera heptamernog prstena, gdje uspostavljaju inter-monomerne mješovite klastere naboja. Poređenja sličnosti između sekvenci i analiza višestrukog poravnanja impliciraju da sekvence HSP60 ne podržavaju hipotezu da su životinjske mitohondrije nastale iz endosimbionta Rickettsial bakterije. Konkretno, Rickettsia je jako divergentna u apikalnom domenu vezivanja supstrata, dok je Ehrlichia uglavnom divergentna u ekvatorijalnom domenu vezivanja multimera/ATP. Sekvenca iz Plasmodium falciparum, ranije okarakterizirana kao mitohondrijska, pojavljuje se umjesto toga kao nefunkcionalni ostatak sekvence sekundarnog simbionta hloroplasta.


Utvrđivanje uloge varijabilnih ostataka važnih za funkcionalnu specifičnost unutar porodice CheY

Sean Bulloch (2), Robert B. Bourret (2) i Igor B. Zhulin (1)
(1) Odsjek za mikrobiologiju i molekularnu genetiku, Univerzitet Loma Linda, Loma Linda, Kalifornija 92350, SAD
(2) Odsjek za mikrobiologiju i imunologiju, Univerzitet Sjeverne Karoline, Chapel Hill 27599, SAD

CheY protein je prototipski član funkcionalne superfamilije regulatora bakterijskog odgovora i strukturne superfamilije Rossmanovog nabora. U E. coli funkcionira kao regulator, koji se nakon fosforilacije pomoću kinaze kemotakse vezuje za flagelarni motor. CheY je protein s jednom domenom, međutim nedavno je prijavljen kao domen u hibridnim proteinima hemotakse (domen sličan CheY). U nekim alfa-proteobakterijama pronađeno je više od jedne kopije CheY proteina. Pokazalo se da jedan od dva CheY proteina u S. meliloti ima drugačiju funkciju: ne vezuje se za bičeve motore i igra ulogu "fosfataze" koja se nadmeće sa glavnim CheY proteinom za fosfat. Kako bismo analizirali raznolikost unutar CheY porodice, konstruirali smo višestruko poravnanje svih poznatih i navodnih CheY proteina i CheY-ovih domena. Izračunavanjem konsenzusa identifikovani su visoko konzervirani ostaci, koji su zajedno sa poznatim CoC ostacima mapirani na 3D model E. coli CheY. Svi su se nalazili unutar "aktivne lokacije". Ostaci uključeni u fosforilaciju i interakciju s drugim proteinima kemotakse prvo su mapirani na poravnanje i ispitano je njihovo očuvanje unutar podskupova sekvenci. Ostaci uključeni u CheY fosforilaciju bili su među najkonzerviranijima, što odražava zajedničku funkciju za sve proteine ​​superfamilije.

U mnogim CheY sekvencama, neki od ostataka potrebnih za vezivanje CheY za flagelarni switch protein FliM u E. coli nisu konzervirani. To je izazvalo sličnu analizu FliM-a. Pokazali smo da je interfejs proteina FliM, koji je u interakciji sa CheY, takođe promenljiv kod mnogih vrsta. Međusobne varijacije interakcijskih površina dvaju proteina mogu prilagoditi put kemotakse određenim tipovima flagelarnih motora. Otkrili smo da među više CheY proteina unutar datog genoma postoji jedan CheY protein, koji ima sedam konzerviranih ostataka koji se vezuju za FliM (vjerovatno pravi CheY homolog), dok su u drugim CheY proteinima dva od ovih sedam ostataka varijabilna. Ova dva ostatka su, međutim, visoko konzervirana između CheY proteina "više kopija" i CheY-ovih domena za koje se zna da ne stupaju u interakciju s FliM-om. CheY ostaci uključeni u interakciju sa CheZ fosfatazom u E. coli konzervirani su samo u gama-proteo bakterijama. BLAST pretraga neredundantne baze podataka (uključujući nedovršene mikrobne genome) otkrila je da je CheZ fosfataza prisutna samo u gama-proteobakterijama. Varijabilni ostaci odgovorni za funkcionalnu raznolikost unutar porodice CheY mapirani su na 3D strukturu E. coli CheY i pronađeni su grupirani na površini dvije izložene alfa heliksa.

Čini se da se male promjene u kritičnim pozicijama na sekvencama proteina koje su očito uzrokovale dramatičnu promjenu funkcije pojavljuju na pozadini sličnih promjena po cijeloj dužini proteina. Filogenetska analiza smjestila je CheYproteine ​​koji djeluju u interakciji s CheZ, s FliM i bez interakcije s FliM u različite klastere.


Predviđanje funkcije porodice proteina, -lokalne strukture i -globalnog nabora poređenjem motiva lokalne sekvence

Bob Chan, Gila Lithwick, Einat Sitbon, Victor Kunin i Shmuel Pietrokovski
Centar za istraživanje raka Freda Hučinsona, Sijetl, SAD i
Weizmann institut nauke, Rehovot, Izrael

Predstavljamo metodu za identifikaciju funkcionalnih i strukturnih sličnosti između proteinskih porodica koristeći sličnost sekvenci motiva. Metoda se zasniva na prikazu svake porodice proteina skupom lokalnih nerazdvojenih višestrukih poravnanja (blokova) i na sofisticiranim programima za analizu sekvenci. Vrlo osjetljivo poređenje blok-na-bloka (LAMA) praćeno je visoko selektivnom analizom konzistencije (CYRCA). Ova analiza identifikuje grupe blokova sa doslednim i tranzitivnim odnosima jedan prema drugom. Pažljiva inspekcija mnogih takvih grupa pokazuje da svaka sadrži porodice proteina sa istom funkcijom, specifičnim strukturnim motivima ili čak globalnim strukturnim naborom. Većina ovih relacija ne može se identifikovati drugim naprednim poređenjima sekvence-sekvence i sekvence-višestruke poređenja. Dakle, naša metoda omogućava predviđanje funkcije, lokalne strukture i globalnog nabora iz poređenja višestruko usklađenih proteinskih sekvenci. Naš poster će opisati metodu i predstaviti reprezentativne primjere. Više detalja o pristupu može se pronaći i biće objavljeno na Blocks WWW stranici (http://blocks.fhcrc.org).


Identifikacija i automatizirano izračunavanje homolognih jezgrinih struktura

Jie Chen, Marchler-Bauer Aron i Stephen H. Bryant
NCBI, NIH, Bethesda, Maryland, SAD

Koristeći veliku bazu podataka o strukturi proteina i poravnanju sekvenci, testiramo novu metodu za razlikovanje homolognih i analognih strukturnih susjeda. Homologni susjedi u test setu ne pokazuju sličnost sekvenci koja se može detektovati, ali mogu biti dobro postavljene i pripadaju istoj superfamiliji prema bazi podataka SCOP (Murzin et al, JMB 247:536-540). Analogni susjedi također ne pokazuju sličnost niza i mogu biti dobro postavljeni, ali njihova strukturna sličnost može biti rezultat konvergentne evolucije. U našem prethodnom istraživanju definirali smo homolognu strukturu jezgra (HCS) kao podskup alfa-ugljičnih koordinata koje se mogu dobro postaviti na homologne susjede. U ispitivanju sa unakrsnom validacijom, pokazali smo da test za prisustvo HCS može dobro razlikovati homologne i analogne susjede (Matsuo i Bryant, Proteins 35:70-790, 1999). U ovom prethodnom radu homologni susedi su identifikovani po njihovim SCOP klasifikacijama, koje su zasnovane na ručnom ispitivanju. Međutim, željeli bismo automatizirati definiciju HCS-a kako bismo omogućili potpuno automatsko rangiranje strukturalnih susjeda prema stepenu očuvanosti HCS-a, kao indikatora evolucijske udaljenosti. Ovdje istražujemo da li se to može postići nekom vrstom "bootstrap" procedure: 1) Početni skup homolognih strukturnih susjeda identificira se pomoću PSI-BLAST (Altschul et al, NAR 25:3389-3402) 2) Početni HCS je definisano od ovih suseda. 3) Ostali strukturni susjedi su identificirani kao homologni na osnovu prisutnosti HCS-a. 4) Definicija HCS-a je ažurirana, nakon čega slijedi ponavljanje (sa granicama) koraka 3 i 4. U posteru predstavljamo dosadašnje rezultate ovog istraživanja.


Detekcija egzona poređenjem između dvije udaljene sekvence genoma kralježnjaka

H. Roest Crollius (1), O. Jaillon (1), C. Dasilva (1), L. Bouneau (1), C. Fizames (1), A. Billault (2), A. Bernot (1), F. Quetier (1), J. Weissenbach (1), W. Saurin (1)
(1) Genoskop, 2 rue Gaston Cremieux, CP 5706, 91057 Evry Cedex, Francuska
(2) CEPH, 27 rue Juliette Dodu, 75010 Pariz, Francuska

Očuvanje informacija kodiranja između dva genoma je vođeno njenom važnosti kao funkcionalnog elementa, i generalno se smanjuje kako evolucija napreduje i vrste udaljavaju. Međutim, regije manje ili nikakve funkcionalne važnosti mutiraju i mijenjaju se bržom brzinom. Ova karakteristika je uspešno iskorišćena za otkrivanje kodirajućih regiona u genomskoj sekvenci. Da bi se to postiglo, potrebno je uporediti sekvencu dva genoma koja su se dovoljno razišla do tačke u kojoj su kodirajuća i nekodirajuća regija jasno razdvojena. Ovo bi trebalo otkriti funkcionalno važne elemente kao što su egzoni i regulatorni elementi, te pružiti obilje sekundarnih informacija o evoluciji gena, strukturi i organizaciji unutar genoma.

Ovaj pristup smo testirali na skupu homolognih gena odabranih u ljudskom i tetraodondiformnom Fugu rubripes genomu. Počevši od 17 gena koji su sekvencionirani i označeni u oba genoma (204 ljudska egzona) i deponirani u javne baze podataka, zadržali smo one koji pokazuju više od 40% proteinske sličnosti u cijeloj dužini (13 gena). Prvo smo izvršili poređenje u paru između homolognih egzona, zatim između homolognih gena, zatim između homolognih genomskih regija koje sadrže gene i na kraju između oba uzorka genoma. Ovo postepeno povećanje nekodirajuće sekvence i složenosti u skupu koji se koristi za poređenje omogućili su nam da kalibriramo parametre algoritama kako bismo postigli maksimalnu osjetljivost uz kontrolu pojave potencijalnog gubitka specifičnosti. Korištene su različite metode poređenja, a sve zasnovane na BLAST algoritmu. Maksimalna osjetljivost i specifičnost se postižu s TBLASTX poravnanjima koristeći matricu bodovanja koja ne dozvoljava zamjene aminokiselina. Stoga se vrijednost T koja specificira granični rezultat za pravljenje rječnika početnih riječi za pretraživanje može podesiti na rezultat tačnog podudaranja dužine W (dužine početne riječi za pretraživanje). Ova šema bodovanja eliminiše konstrukciju i upotrebu liste susednih reči za pretragu. Brzina TBLASTX pretraga je stoga povećana za približno dva reda veličine u poređenju sa pretragama koje se obavljaju sa matricama zamjene kao što je BLOSUM. Ovaj aspekt je kritičan kada se radi o velikim frakcijama genoma kičmenjaka.

Ovaj rad je osnova programa sekvenciranja pokrenutog u Genoscopu, koji ima za cilj sekvenciranje velikog dijela genoma drugog tetraodondiforma, Tetraodon nigroviridis (400 Mb) kako bi se pomoglo u identifikaciji kodirajućih regija u genomima ljudi i drugih kičmenjaka. Tetraodon ima kompaktan genom otprilike 8 puta manji od ljudskog ili mišjeg, dok sadrži sličan genski komplement. Stoga je posebno prilagođen da služi kao osnova za komparativnu genomiku na nivou sekvence, i nalazi se na prikladnoj evolucijskoj udaljenosti kako bi se osiguralo da će očuvani aminokiselinski dijelovi biti od neke funkcionalne važnosti. Sekvencirali smo 20% ovog genoma na uglavnom neredudantan i nasumičan način (http://genoscope.cns.fr). Ovaj uzorak, najveći dostupni za kičmenjaka nakon čovjeka, upoređen je sa skupom od nekoliko stotina ljudskih gena. Preliminarni rezultati sugeriraju da se 20% ljudskih egzona, raspoređenih u 50% gena, može otkriti sa preko 95% specifičnosti.


Olakšavanje komparativnih genomskih analiza integracijom YPD i WormPD

Michael E. Cusick, Maria C. Costanzo, Peter D. Hodges, Jennifer D. Hogan, Jodi Lew-Smith, Kevin J. Roberg-Perez i James I. Garrels
Proteome Inc., 100 Cummings Center, Beverly, MA 01915, SAD

Dvije visoko integrirane baze podataka proteoma modelnih organizama sada su javno dostupne u biblioteci BioKnowledge koju proizvodi Proteome, Inc. na adresi. Baza podataka proteoma kvasca (YPD) za kvasac Saccharomyces cerevisiae bila je prva sveobuhvatno kurirana baza podataka modela organizama. Njegova laka prezentacija, detaljne informacije o svim aspektima biologije kvasca i detaljna obrada kompletne istraživačke literature o kvascu bili su blagodat za istraživače u mnogim poljima. Sada se YPD-u pridružuje i WormPD koji pokriva biologiju C. elegansa sa paralelnom prezentacijom i detaljima. YPD i WormPD su predstavljeni kao lucidni izveštaji o proteinima koji sadrže naslovne linije, eksperimentalna i predviđena svojstva proteina, detaljne beleške u slobodnom tekstu i reference. Veze između ove dvije vrste dostupne su u bilo kojem izvještaju o proteinima, a temelje se na sličnostima Blast, članstvu u porodici proteina i unakrsnim napomenama. YPD i WormPD su besplatno dostupni akademskim laboratorijama i korporativnim subjektima putem licencirane pretplate.

Sa dvije sveobuhvatno kurirane baze podataka koje su sada dostupne, po prvi put istraživači bioinformatike mogu napraviti detaljna poređenja među vrstama puteva, kompleksa, porodica proteina i regulacije.Kao primjer onoga što se može učiniti, urađena je komparativna analiza proteinskih kompleksa koristeći opsežne opise proteinskih kompleksa unutar YPD. Kompleksi za koje su svi članovi konzervirani u C. elegans (preko 50 kompleksa) definiraju zajedničku ćelijsku mašineriju. Sa drugim kompleksima kvasca nijedan član nema značajnu podudarnost sa proteinom C. elegans, što ukazuje da je kompleks vjerovatno specifičan za gljivice. Slične komparativne analize će biti prikazane za subcelularnu lokalizaciju. Opsežne informacije dostupne za proteine ​​kvasca u YPD-u korištene su za predviđanje svojstava i funkcija za nekarakteristične ortologe u C. elegans i odatle na druge više vrste, uključujući ljude.

Glavno usko grlo u tumačenju ogromne količine podataka o funkcionalnoj genomici koji sada dolaze na raspolaganje je razumijevanje hiljada istraživačkih tragova koji su generirani. Visokokvalitetne napomene prisutne u YPD i WormPD omogućavaju spreman prolaz kroz ovo usko grlo. Dvije karakteristike su posebno korisne kada se YPD, a uskoro i WormPD, koriste kao platforma za prezentaciju rezultata funkcionalne genomike. 1) Naslovna linija svakog izvještaja o proteinima pruža sažet opis proteina u jednom redu. Redovi naslova se kontinuirano ažuriraju i kao takvi odražavaju najbolji sinopsis onoga što je trenutno poznato o proteinu. 2) Svaki protein je klasifikovan prema biohemijskoj funkciji i ćelijskoj ulozi, na osnovu kontrolisanog rečnika konstruisanog za ta dva svojstva.


Model za nesavijeno stanje proteina

Howard J. Feldman, Mark A. Kotowycz, Thanh-Van T. Le i Christopher W. V. Hogue
Istraživački institut Samuel Lunenfeld, bolnica Mount Sinai/Odjel za biohemiju, Univerzitet u Torontu. Toronto, Ontario, Kanada

Razvijen je metod za generiranje proteinskih konformera proizvoljnog sastava aminokiselina u O(NlogN) vremenu, uzimajući samo primarnu sekvencu kao ulaz. Ovi konformeri poseduju fizički i hiralno validne okosnice sa svim dužinama veze, uglovima i diedralima unutar dozvoljenih tolerancija. Metoda se zasniva na 2-D funkciji distribucije vjerovatnoće za postavljanje Ca pod nazivom 'graf putanje', koji je prethodno opisan.

Pokazalo se da je algoritam koristan i za rekonstrukciju okosnica stvarnih proteina i za generiranje nasumičnih proteina. Ovi načini mogu biti mješoviti, što omogućava uzorkovanje nepoznatih struktura domena i linker regiona dok se istovremeno rekonstruišu domeni sa poznatom strukturom.

Da bi se utvrdilo koliko nasumične strukture mogu biti tačne, generisano je 10.000 nasumičnih konformera proteina koji predstavljaju širok spektar nabora. Strukturu sa najmanjim RMSD prikazujemo kristalnoj strukturi u svakom slučaju.

Generator slučajnog konformera se takođe može koristiti za generisanje polaznih tačaka za simulacije molekularne dinamike ili ansambala proteina za poređenje sa eksperimentalnim studijama neuređenih struktura. Eksperimentalna ograničenja udaljenosti kao što su NOE ili vodonične veze mogu se dodati i za pristrasnost slučajnog hoda, ako je poznato.

Dalje smo razvili sistem koji nam omogućava da izračunamo dinamičke trajektorije proteina, na osnovu fizičkog modela kretanja proteinske kičme. Prikazujemo filmove o otkrivanju proteina i energije izračunate za njih u svakom koraku, koristeći potencijal baziran na atomu. Analogijom sa 2-D gasom, povučena je relacija između ovog energetskog rezultata i kretanja datog ostatka.


Predviđanje ograničenja udaljenosti proteina s poboljšanim performansama korištenjem motiva sekvence i neuronskih mreža

J. Gorodkin, O. Lund, C. A. Andersen i S. Brunak
Odeljenje za ekologiju i genetiku, Institut bioloških nauka, Univerzitet u Arhusu, Danska

Za svako odvajanje sekvence (u ostacima) bilo kojeg para aminokiselina u polipeptidnim lancima gdje je poznata 3-dimenzionalna struktura, istražujemo predvidljivost fizičke udaljenosti (u Angstromima). Utvrđeno je da su distribucije udaljenosti za male separacije nizova bimodalne, dok za velike separacije nizova konvergiraju prema univerzalnom obliku, iako se srednja vrijednost udaljenosti povećava kako se razdvajanje sekvence povećava. Slično promjeni distribucije udaljenosti, motivi sekvence se također mijenjaju za povećanje razdvajanja sekvenci. Motiv sekvence je konstruisan za ostatke za koje je razmak između C-alfa atoma manji od srednje vrednosti pri tom razdvajanju. Kada je razdvajanje malo, motiv se sastoji od jednog vrha koji se nalazi između dva ostatka. Kako se razdvajanje sekvence povećava, pojavljuju se dodatni vrhovi oko dva odvojena ostatka, a kada je razdvajanje veliko, središnji pik se razmazuje. Ova analiza pokazuje zašto shema predviđanja neuronske mreže radi bolje za ovaj zadatak od jednostavnih pristupa vođenih statističkim podacima kao što su funkcije gustoće vjerovatnoće para. Koristeći znanje iz istraživanja za dizajn nove arhitekture neuronske mreže, postignuto je veliko poboljšanje u performansama za odvajanje sekvenci od 10 do 30 ostataka. Promjena motiva sekvence i oblika distribucije udaljenosti kvalitativno su odgovorni za performanse mreže sa povećanjem razdvajanja sekvenci. WWW server je dostupan na http://www.cbs.dtu.dk/services/ distanceP/.


Računska karakterizacija kontrolnih fraza 3'-end-processing

Joel H. Graber, Charles R. Cantor, Scott C. Mohr i Temple F. Smith
Centar za naprednu biotehnologiju Bostonski univerzitet, Boston, MA, SAD

Kontrolne sekvence nukleinske kiseline (fraze) je teško prepoznati jer su relativno male i pokazuju velike varijacije u vjernosti i složenosti. Pokazali smo da se kontrole 3'-end-processing sastoje od više elemenata, pri čemu pojedinačni elementi mogu uvelike varirati od konsenzus sekvence, a ipak ostati funkcionalni kao dio cjeline. Takva varijabilnost, uobičajena među kontrolnim frazama, čini bioinformatičku analizu prirodnim pristupom karakterizaciji. Trenutno dostupne velike baze podataka sekvenci pružaju dovoljno podataka za takva istraživanja, s obzirom na odgovarajuću biološku hipotezu za odabir sekvenci kandidata.

Gotovo sve zrele eukariotske mRNA završavaju poliadenilatnim (poli(A)) repovima. Mjesto obrade 3'-kraja (cijepanje i poliadenilacija) određeno je kontrolnim frazama unutar nezrele RNK sekvence. Eksperimentalne studije su pokazale širok raspon funkcionalnih fraza za obradu 3'-kraja u mnogim organizmima i samo slabu konzervaciju kada se ispitaju među više vrsta. Tražili smo fraze za obradu 3'-kraja unutar oznaka ekspresirane sekvence (ESTs), cDNK sekvence koje se tipično generiraju iz oligotimidilatnih prajmera koji se naizgled hibridiziraju sa mRNA poli(A) repom. 3'-kraj EST sekvence identifikuje mjesto za obradu 3'-kraja.

Prikupili smo velike (> 1000) grupa EST sekvenci kvasca, pirinča, arabidopsisa, voćnih mušica, miša i ljudi za koje se smatra da su vrlo vjerovatno nastale na 3' kraju EST-a. Identificirali smo nekoliko motiva sa statistički značajnom zastupljenošću, što ukazuje na vjerojatnu biološku funkciju. Poređenje među vrstama otkriva da upotreba i očuvanje kanonskog elementa AAUAAA uvelike varira među šest vrsta i posebno je slaba kod biljaka i kvasca. Čini se da se kod svih ispitivanih vrsta kompletna kontrola 3'-krajne obrade sastoji od složenog agregata višestrukih elemenata. Predstavljamo prošireni model kontrolnih fraza 3'-krajnje obrade kako bismo objasnili različite fenomene viđene i u našim rezultatima iu prethodnim istraživanjima.


Filogenetska analiza na skali kompletnog genoma korištenjem distribucije evolucijskih stopa među proteinima

Nick V. Grishin, Yuri I. Wolf, Eugene V. Koonin
Nacionalni centar za informacije o biotehnologiji, Nacionalna medicinska biblioteka, Nacionalni institut za zdravlje, Bethesda, MD 20894, SAD

Akumulacija kompletnih sekvenci genoma različitih organizama stvara nove mogućnosti za evolucijske zaključke iz poređenja cijelog genoma. Ovdje analiziramo distribuciju stopa supstitucije između proteina kodiranih u 19 kompletnih genoma (distribucija međuproteinske brzine). Da bi se procijenile ove stope, bilo je potrebno primijeniti drugu fundamentalnu distribuciju, onu stope supstitucije između mjesta u pojedinačnim proteinima (intra-proteinska distribucija). Koristeći dva nezavisna pristupa, pokazujemo da se čini da je varijabilnost stope intra-proteinske supstitucije značajno veća od opšteprihvaćenog. Pokazali smo da su međuproteinske distribucije koje su zaključene iz poređenja genoma i genoma slične jedna drugoj i da se mogu aproksimirati jednom distribucijom sa dugim eksponencijalnim ramenom. Ovo sugerira da hipoteza molekularnog sata može biti važeća na skali genoma. Koristimo parametar skaliranja ove distribucije da izgradimo ukorijenjeno filogenetsko stablo cijelog genoma čija je topologija u velikoj mjeri kompatibilna s onom globalnih stabala baziranih na rRNA.


FramePlus: osjetljiv algoritam za usklađivanje DNK s sekvencama proteina

Eran Halperin, Simchon Faigler i Raveh Gill-More
Compugen Ltd., 72 Pinchas Rosen Street, Tel Aviv 69512, Izrael

Algoritmi za poravnanje bioloških sekvenci postali su izuzetno popularni u posljednjih nekoliko godina, a sada ih koriste hiljade istraživača kao vjerovatno najvažniji alat za označavanje u bioinformatici. Međutim, korišteni algoritam pretraživanja može imati presudan utjecaj na uspjeh projekta zabilješke: različiti algoritmi će pronaći (i propustiti) različite pogotke pod različitim okolnostima.

Algoritmi okvira su poseban slučaj algoritama za poravnanje sekvenci, kada se želi uporediti sekvenca nukleinske kiseline sa sekvencom aminokiselina. Oni su posebno korisni za označavanje oznaka izražene sekvence (EST). Prvi razvijeni algoritam okvira bio je Translated Search (također poznat kao prijevod sa šest okvira), a direktno je zasnovan na Smith-Waterman algoritmu. Heuristički paketi za pretraživanje baze podataka (kao što su BLAST i FASTA) su rano uključili algoritme okvira. Međutim, rani algoritmi okvira nisu bili vrlo tolerantni na greške, posebno kada greške uzrokuju pomake okvira. Rješenje za ovo je uveo FrameSearch.

U ovom radu predstavljamo novi okvirni algoritam nazvan FramePlus, koji je proširenje FrameSearch-a, gdje modeliramo greške sekvenciranja odvojeno od indela aminokiselina uzrokovanih evolucijom. Budući da se radi o dvije različite pojave, razumno je očekivati ​​da će ovo bolje modeliranje rezultirati povećanom osjetljivošću. Kako bismo testirali ovu pretpostavku, koristili smo i prilagodili ideje Brennera et al. za algoritamski benchmarking baziran na SCOP bazi podataka strukturno klasifikovanih proteina, i implementirao opšti okvir za algoritame okvira za benchmarking. Koristili smo ovaj okvir da uporedimo sve gore navedene algoritme.

Naši rezultati sugeriraju da je FramePlus znatno osjetljiviji od drugih algoritama, te da u slučajevima niskog identiteta sekvence može pronaći čak 13% više istinitih pogodaka od bilo kojeg drugog testiranog algoritama. Iako je FramePlus sporiji od heurističkih algoritama kao što je BlastX kada se implementira na standardnom računaru, može se ubrzati do 3 reda veličine na hardveru posebne namjene. FramePlus izvorni kod je besplatno dostupan, na ftp.compugen.co.il/pub.


Uporedni testovi metoda za otkrivanje kršenja neutralne brzine u genima koji kodiraju proteine

A. P. Jason de Koning i Caro-Beth Stewart
Odeljenje za biološke nauke, Univerzitet u Albaniju, SUNY, Albany, NY 12222, SAD

Važan, ali zastrašujući izazov u komparativnoj genomici je identificirati one genetske razlike između vrsta koje su postale fiksirane pozitivnom darvinističkom selekcijom za novu funkciju, a ne neutralnim genetskim pomakom. Neutralna teorija predviđa da će geni koji nisu pod selektivnim pritiskom evoluirati tako da će stopa nesinonimne nukleotidne supstitucije (dN) biti približno jednaka stopi sinonimne supstitucije (dS). Značajno povišenje dN u odnosu na stopu neutralne supstitucije lokusa, mjereno dS gena, uzima se kao jak dokaz pozitivne selekcije za promjene u sekvenci proteina.

Iako su predložene brojne metode za procjenu dN i dS, malo se zna o njihovim relativnim snagama i slabostima kada se primjenjuju na stvarne podatke o sekvenci DNK. Jedan od razloga za ovaj nedostatak komparativnih studija je taj što se većina dostupnih dN/dS metoda implementira na različitim računarskim platformama, koristi različite ulazne datoteke i prikazuje rezultate na načine koji otežavaju direktna poređenja.

Kako bismo olakšali komparativne dN/dS studije, razvijamo novi kompjuterski program, FENS (Facilitated Estimates of Nucleotide Substitutions), koji izračunava dN i dS između homolognih gena koji kodiraju proteine ​​uz pomoć niza objavljenih i novorazvijenih metoda. Metode analize koje se trenutno primjenjuju uključuju one od Li et al. (1985), Nei i Gojobori (1986) [kako je opisano u originalnoj publikaciji, a ne kako je programirano u MEGA], Pamilo & Bianchi (1993) i Li (1993) [kako je implementirano u kompjuterskom programu, Li93, koji ispravlja matematički greška u originalnim publikacijama] i Ina (1995) [po metodi 1 i 2]. Dostupne su dodatne opcije, uključujući gama-korekciju za varijaciju stope između mjesta, i prilagođavanje Nei-Gojobori i Ina metodama za slučajeve u kojima se stop kodoni mogu lako doseći tačkastim mutacijama. FENS takođe izračunava t-testove za značajne razlike između dN i dS, kao što su predložili Hughes i Nei (1988). Rezultati svih metoda su prikazani u kompaktnim matricama, sa opcionim izlazom svih proračuna.

Ovdje ćemo predstaviti analize velikih pseudogenih skupova podataka po svim metodama implementiranim u FENS-u, upoređujući ponašanje metoda u odnosu na neutralno očekivanje (dN = dS, u prosjeku). U kombinaciji sa simulacijskim studijama, takve komparativne studije koje koriste stvarne sekvence DNK trebale bi nam pomoći da shvatimo koja je od različitih metoda najprikladnija za otkrivanje adaptivne molekularne evolucije.

FENS izlazi kao beta izdanje i biće dostupan na poster sesiji. Program trenutno radi na Power Mac računarima, iako će druge platforme biti podržane u budućnosti. Ulazni fajlovi koriste standardni Nexus format, tako da su podaci lako prenosivi na druge često korišćene programe evolucione analize.

Zahvaljujemo M. Nachmanu na neobjavljenim sekvencama i NSF-u na podršci.


Upotreba skrivenih Markov modela sekundarne strukture za identifikaciju gena i prepoznavanje nabora proteina

Peter J. Lammers, John B. Spalding i Steven P. Duran
Državni univerzitet New Mexico, Las Cruces, NM, SAD

Testirali smo jednostavnu hipotezu da se sekundarne strukture proteina predviđene iz sekvenci aminokiselina mogu koristiti kao osnova za identifikaciju strukturnih homologa u Protein Data Bank (PDB). Koncentrisanjem na grupe blisko povezanih proteina, poboljšana je preciznost predviđanja sekundarne strukture i rezultati se mogu koristiti za konstruisanje skrivenog Markovljevog modela (HMM) za svaku grupu zasnovanu samo na oznakama spirale, ploče ili zavojnice. Rezultirajući HMM pruža osjetljiv alat za pretraživanje PDB resursa. Valjanost ovog pristupa je testirana sa 37 grupa proteinskih sekvenci povezanih u različitim stepenima sa homolognim proteinima u PDB. Za kreiranje svake grupe povezanih sekvenci korištena je jedna sekvenca upita koristeći potpuno automatizirani proces. Sekundarne strukture su predviđene za svaki protein skupa za obuku koristeći dvije metode: Predator i DSC. HMM su napravljeni za svaku grupu koristeći HMMER 2.1.1 i ocijenjeni prema STRIDE bazi podataka sekundarnih struktura izvedenih iz PDB-a. Predator metoda se pokazala superiornom, budući da je protein s najboljim rezultatom bio istinski pozitivan za modele 31/37 (84%). Modeli izvedeni iz sekundarnih struktura predviđenih DSC metodom bili su ispravni u 23/37 slučajeva (62%). Vjerovatnoća uspjeha nije bila u korelaciji sa stepenom identičnosti sekvence između početnog proteina upita i njegovog najbližeg PDB homologa, odnosno dužine proteina. Međutim, veličina skupa za obuku korištenog za izgradnju HMM-a je imala efekta. Četiri od šest promašaja modela izvedenih iz Predatora došla su iz trening setova sa 13 ili manje proteina.


Ukorjenjivanje superfamilije kinezina: sveobuhvatna filogenomska analiza

Lawrence, C.J. (1), Malmberg, R.L. (1), Muszynski, M.G. (2) i Dawe, R.K. (1&3)
(1) Univerzitet Džordžije, Odsjek za botaniku, Atina, GA, SAD
(2) Pioneer Hi-Bred Intl., Inc. Athens, GA, SAD
(3) Univerzitet Džordžije, Odsjek za genetiku, Atina, GA, SAD

Kinezini čine raznoliku, drevno izvedenu superfamiliju motornih proteina baziranih na mikrotubulama. Izgradnjom filogenetskih stabala i mapiranjem funkcije na monofiletske klade, nadamo se da ćemo rekonstruirati evoluciju jedinstvenih funkcija unutar superfamilije kinezina. Uključujemo dvije bakterijske sekvence za MukB, kinesinUs prokariotskog pretka, i četiri kinezinske sekvence iz Giardia lamblia, drevno divergentnog amitohondrijskog protista, kako bi ukorijenili pan-kinezinsko stablo. Pored klasifikacije prethodno opisanih kinezina iz protista, gljiva i životinja, klasifikujemo 13 jedinstvenih kinezina koje smo sekvencirali iz monokota Zea mays, kao i mnoge novoprijavljene sekvence dvosupnice kao predstavnike biljnog carstva. Preliminarni rezultati naše filogenetske analize pokazuju da (1) biljke imaju kinezine usmjerene na plus i minus, (2) kinezine usmjerene na minus kraj formiraju monofiletsku kladu, sugerirajući da jedan evolucijski događaj objašnjava porijeklo obrnute usmjerenosti motora i (3) biljke mogu imati nuklearnu kopiju MukB, vjerovatno neophodnu za replikaciju hloroplasta ili mitohondrija.

Lee, D. A., Pearl, F. M. G. i Orengo, C. A.
Grupa za biomolekularnu strukturu i modeliranje, University College London, Gower Street, London WC1E 6BT, UK.

CATH (1) je sistem klasifikacije struktura proteina koji su deponovani u PDB (2, 3). To je domenska, hijerarhijska klasifikacija, a četiri glavna nivoa su: Topologija arhitekture klasa i Homologija. PSI-BLAST (4) je efikasan i moćan alat za detekciju značajnih sličnosti sekvenci između proteina. U ovoj studiji, CATH i PSI-BLAST su korišteni zajedno kako bi pomogli u istraživanju odnosa između sekvence i strukture proteina. Sekundarni aspekt studije je validacija CATH klasifikacija.

Studija je podijeljena u dva glavna dijela. Prvi dio se odnosi na skrining, korištenjem PSI-BLAST-a, sekvenci nepoznate strukture prema CATH skupu podataka sekvence. Rezultati se analiziraju u svjetlu strukture povezane sa svakom CATH sekvencom.

U drugom odeljku, sekvence predstavnika svake CATH porodice su skrinirane, koristeći PSI-BLAST, u odnosu na najnovije izdanje GENBANK (5) neredundantnog skupa podataka o sekvenci proteina. Opisana je procedura za regrutovanje navodnih homologa u CATH porodice.

CATH-PSI-BLAST server je u izgradnji na adresi
http://www.biochem.ucl.ac.uk/

1) Orengo, C. A. et al. 1997. Struktura. 5:1093-1108.
2) Abola, E. E. et al. 1987.U: Kristalografske baze podataka - informacioni sadržaj, softverski sistemi, naučne primene, F. H. Allen, G. Bergerhoff i R. Sievers, ur. Komisija za podatke Međunarodne unije za kristalografiju, Bon/Cambridge/Chester. pp 107-132.
3) Abola, E. E. et al. 1997. U: Methods in Enzymology, C. W. Carter Jr. i R. M. Sweets, ur. Academic Press, San Diego. Vol. 277, str. 556-571.
4) Altschul, S. F. et al. 1997. Istraživanje nukleinskih kiselina. 25:3389-3402.
5) Baskin, Y. 1983. Science Digest. 91:94-95.


Model hijerarhijskih efekata (HEM) za otkrivanje gena protiv raka upotrebom Markovljevog lanca Monte Carlo i web-baziranog razvoja na alatima za bioinformatičku i statističku analizu

Jae K. Lee
Laboratorija za molekularnu farmakologiju, Nacionalni institut za rak, Nacionalni institut za zdravlje, Bethesda, MD, SAD

Od kraja prošle decenije, NCI eksperimentiše i objedinjuje bogat skup podataka o lekovima protiv raka na osnovu skupa od 60 linija različitih vrsta raka. Paralelno sa ovom ogromnom bazom podataka o lijekovima, sada je dostupno nekoliko velikih baza podataka o ekspresiji cDNK mikromreža i oligonukleotida i neke molekularne mete na 60 ćelijskih linija raka. Da bismo rigorozno i ​​efikasno istražili ove podatke od više GB, moramo razviti inovativne bioinformatičke i statističke metode istraživanja. Predlažem novi pristup statističkog modeliranja za rigoroznu procjenu efekata, posebno efekata interakcije, različitih bioloških faktora istovremeno i identifikaciju zanimljivih --- potencijalno klinički važnih --- lijekova i gena. Ovaj pristup se zasniva na konstrukciji modela hijerarhijskih efekata (HEM) i procjeni parametara modela korištenjem Markovljevog lanca Monte Carlo, napredne kompjuterski intenzivne statističke tehnike. Vitalnost takvog statističkog/bioinformatičkog razvoja na ogromnim količinama bioloških i kliničkih podataka snažno zavisi kako od intenzivne interakcije i saradnje između statističkih i bioloških istraživača, tako i od fleksibilnosti naših istraživačkih alata za tumačenje podataka iz različitih perspektiva. U potpunosti koristeći moderne statističke pakete, kao što je S-PLUS, razvili smo sistem baziran na webu kako bismo pružili naše alate za statističku analizu direktno biološkim i kliničkim istraživačima.


Koliko tačnosti RBS model može donijeti prepoznavanju početka prijevoda?

Ping Li i Mark Borodovski
Škola biologije, Georgia Institute of Technology, Atlanta, GA 30332-0230, SAD

Precizno predviđanje početnih lokacija prijevoda je još uvijek otvoren problem. GeneMark program, softver za predviđanje gena, koristi modele Markovljevog lanca. Predviđanje početka translacije je teško ako se koriste samo modeli regiona koji kodiraju protein i ne kodiraju. Ribosome Binding Site (RBS) obično se nalazi u regiji -19 do -4 uzvodno od mjesta inicijacije translacije. Najnovija verzija GeneMarka koristi RBS model da pomogne prijevodu da započne prepoznavanje. Poznavanje distribucije stopa grešaka takvog predviđanja je ključno za tumačenje GeneMark predviđanja. U ovoj studiji, veliki broj sekvenci umjetnih modela generiran je modelima Markovljevog lanca i RBS modela. Predložen je novi algoritam u kojem su izračunata dva rezultata kako bi se razlikovali pravi početak prijevoda od lažnih umjesto jednog rezultata koji se koristi u trenutnom GeneMarku. Ovisnost stope greške u predviđanju od parametara modela, predstavljenih Kullback-Lieblerovom distancom, određena je da pruži smjernice za predviđanje gena različitih prokariotskih genoma. Pokazalo se da novi algoritam potencijalno ima veću tačnost predviđanja od procedure predviđanja početne lokacije koja se trenutno koristi u GeneMarku.


Kvaliteta merC-a, modul mer mozaika

Cynthia A. Liebert, Alice L. Watson i Anne O. Summers
Odsjek za mikrobiologiju, Univerzitet Georgia, Atina, GA 30602-2605, SAD

Ispitivali smo područje velike varijabilnosti u mozaičnom operonu otpornosti na živu (mer) prirodnih bakterijskih izolata iz crijevne mikrobiote primata. Regija između merP i merA gena (PA) devet mer lokusa je sekvencionirana i nije bio prisutan merC, merF ili nikakav gen. Identifikovana su dva nova merC gena. Ukupna nukleotidna raznolikost, p (na 100 mjesta), gena merC bila je veća (49,63) od susjednih merP (35,82) i merA (32,58) gena. Međutim, posljedice ove varijabilnosti za predviđenu strukturu MerC proteina su ograničene i, uz dva izuzetka, pretpostavljeni funkcionalni elementi (ligandi koji se vezuju za metal i transmembranski domeni) su jako očuvani. Mogući agensi raznolikosti u PA regiji uključuju homolognu rekombinaciju posredovanu Chi lokacijama u i blizu mer. Postoje i dokazi o vestigijalnim sekvencama koje ukazuju na aktivnosti specifičnih za mjesto rekombinaza u i blizu nekih mer operona.


Grupiranje receptora spojenih sa G-proteinom pomoću otkrivanja hijerarhijskog uzorka

Agatha H. Liu, Gustavo Stolovitzky, Ajay Royyuru, Andrea Califano
Centar za računarsku biologiju, IBM TJ Watson Research Center, SAD

Superfamilija receptora spojenih sa G-proteinom je vjerovatno najveća i najfunkcionalnije diferencirana porodica gena u našem genomu. Njegovi članovi mogu pokazati iznenađujući nivo sličnosti sekvenci, ali i dalje imaju radikalno različite funkcije. Primjer za to može se naći u paratiroidima i kalcitoninima. Kao posljedica toga, iz perspektive komparativne genomike identifikacija elemenata sekvence koji daju specifične funkcionalne osobine članovima GPCR porodica je još uvijek otvoreno pitanje. Ovo je još istinitije u odsustvu prave osnove za strukturne modele ovih transmembranskih proteina, koji otkrivaju veliko hidrofobno područje i stoga ih je izuzetno teško kristalizirati.

Ovaj rad predstavlja pristup bez nadzora, odozgo prema dolje koji omogućava istraživačima da efikasno identifikuju regione sekvence koji daju progresivno više specifičnosti funkciji svakog od GPCR proteina u SWISS-PROT izdanju 36. Ova metoda se zasniva na rekurzivnoj identifikaciji statistički značajnih očuvanih regiona kroz determinističko otkrivanje rijetkih uzoraka putem Splash algoritma.

Proučavaju se dva pristupa. U prvom, u svakom koraku, uzorak (ili obrasci) koji su najkonzerviraniji u proteinskom skupu A0 se otkrivaju i koriste za izgradnju lokalne HMM reprezentacije. Potonji se koristi za podjelu skupa u dva podskupa: skup A01 koji ima rezultate iznad statističke značajnosti u odnosu na HMM, i skup A00 koji nema. Nakon uklanjanja HMM regije iz proteina u setu A01, postupak se ponavlja i za A01 i za A00 (dajući setove A011, A010, A001 i A000) sve dok se ne dobije kompletno stablo klasifikacije i statistički značajni obrasci se više ne mogu identificirati .

U drugom pristupu postupak se ponavlja, ali se skupovi ne dijele odmah. To jest, HMM regija je maskirana u svim sekvencama u A0 koje su također u A01, a zatim se otkrivanje šablona ponavlja na cijelom skupu A0, dajući skup A02, A03, itd. Kada se statistički značajni obrasci više ne mogu otkriti u A0, postupak se ponavlja za svaki od podskupova A01, A02, itd. sve dok se više ne mogu otkriti statistički značajni obrasci. Konačno, određivanjem količine preklapanja u sekvencama koje imaju rezultat iznad praga značajnosti za svaki par HMM, pravi se puni grafikon odnosa proteinskih klastera. Svaka metoda je interesantna po sebi i daje biološki značajne rezultate.

Zbog efikasnosti algoritma za otkrivanje uzoraka, cijela procedura se može završiti za nekoliko minuta na radnoj stanici za više od 1000 GPCR-a. Ovo čini ovu metodologiju korisnom za grupisanje velikih baza podataka proteina kao što je potpuni SWISS-PROT.

Izvještava se o uporednoj analizi rezultata u odnosu na prethodnu tehniku. Također će se raspravljati o brojnim interesantnim funkcionalnim proteinskim klasterima, koji nisu ranije prijavljeni. Neki HMM generirani ovim pristupom korišteni su za pregled baze podataka dbEST proizvodeći nekoliko novih GPCR kandidata na različitim nivoima granularnosti.


Lokalno višestruko poravnanje pomoću eliminacije slijepe ulice

Alexander V. Lukashin i Joseph J. Rosa
Biogen, Inc., 14 Cambridge Center, Cambridge, MA 02142, SAD

Lokalno višestruko poravnanje sekvenci je osnovni alat za ekstrakciju funkcionalno važnih regiona koje deli porodica proteinskih sekvenci. Predstavljamo algoritam za rigorozno rješavanje lokalnog problema višestrukog poravnanja. Algoritam se zasniva na proceduri eliminacije slijepe ulice koja omogućava izbjegavanje iscrpne pretrage. Određeni kriterijumi odbijanja su izvedeni kako bi se eliminisali oni segmenti sekvence i parovi segmenata za koje se matematički može pokazati da nisu u skladu (slepi) sa globalno optimalnim poravnanjem. Iterativna primjena kriterija eliminacije rezultira brzim smanjenjem kombinatornih mogućnosti bez njihovog eksplicitnog razmatranja. U velikoj većini slučajeva, postupak konvergira do jedinstvenog globalno optimalnog rješenja. Za razliku od iscrpnog pretraživanja, čija je računska složenost kombinatorna, algoritam je računski izvodljiv jer broj operacija potrebnih za eliminaciju bezizlaznih segmenata i parova segmenata raste kvadratno, odnosno kubično, s ukupnim brojem elemenata niza. Metoda je ilustrovana na skupu porodica proteina za koje su globalno optimalna poravnanja dobro prepoznata.


Xenologous Gene Displacement in Archaea and Bacteria

Kira S. Makarova, L. Aravind i E. V. Koonin
Nacionalni centar za biotehnološke informacije
Nacionalna medicinska biblioteka
Nacionalni instituti za zdravlje, Bldg. 38A
Bethesda, MD 20894, SAD

Možda najneočekivaniji rezultat komparativne analize potpuno sekvenciranih genoma bakterija i arheja je prividna visoka stopa horizontalnog prijenosa gena, koja se čini čak i između filogenetski udaljenih mikroba. Jedan od mogućih rezultata horizontalnog transfera gena je zamjena gena njegovim ortologom iz udaljene vrste za koju se pretpostavlja da će se odvijati kroz međufazu kada su oba gena prisutna u genomu. Ovu evolucijsku pojavu nazvali smo ksenolognim pomakom gena (XGD). Koristeći kompletan skup proteina kodiranih u 5 arhealnih i 15 bakterijskih genoma, pokušali smo da procijenimo doprinos XGD događaja evoluciji ovih prokariota. Kako bi se otkrili relativno noviji slučajevi XGD-a, upoređene su grupe blisko povezanih genoma, kao što su E.coli-Haemophilus influenzae-Rickettsia prowazekii, Treponema pallidum-Borrelia burgdorferi, Chlamydia pneumoniae-C.trachomatis i Mycotaliummoniapneneuplasma. . Otkrili smo da su određeni organizmi, kao što je R.prowazekii među Proteobakterijama i dvije spirohete - B.burgdorferi i T.pallidum, posebno skloni XGD. Kako bismo otkrili potencijalne drevne XGD događaje, tražili smo "arhejske" gene u bakterijama i, obrnuto, "bakterijske" gene u arhejama. Nekoliko slučajeva XGD u različitim grupama arheja i bakterija uvjerljivo je potkrijepljeno filogenetskom analizom. Općenito, rezultati sugeriraju da je količina XGD otprilike proporcionalna evolucijskoj udaljenosti između upoređenih genoma. Izvori sticanja gena variraju u svakom slučaju, ali postoji jasna veza sa životnim stilom organizma. Na primjer, spirohete prvenstveno dobivaju eukariotske gene ili gene od drugih patogenih bakterija, dok kod hipertermofilnih bakterija postoji snažan trend sticanja arhealnih gena.


HMELJ: Hibridni optimizator strukture proteina

Alberto Maria Segre i Sean Forman University of Iowa, Iowa City, Iowa, SAD

Sastavljanje problema savijanja proteina kao kompjuterskog modela je notorno teško zbog broja potencijalnih konformacija. Mnoge tehnike koriste pojednostavljeni proteinski model i omogućavaju modelu da se slobodno kreće. Razvili smo metodu predviđanja strukture koja koristi potpunu reprezentaciju proteina. Umjesto da dozvoli modelu da se slobodno kreće, potpuna reprezentacija je presavijena na uglavnom diskretan način. Uglovi i dužine veze su fiksni, a diskretni broj parova uglova phi/psi se bira van mreže korišćenjem Ramachandran dijagrama svake aminokiseline i algoritma grupisanja.

Odabrani parovi uglova phi/psi formiraju stablo pretraživanja potencijalnih konformacija. Algoritam pretraživanja savija protein s lijeva na desno pokušavajući pronaći minimalnu vrijednost za našu funkciju bodovanja. Djelomični nabor se boduje korištenjem pristupačne površine svake aminokiseline (izračunate inkrementalno), broja vodoničnih veza formiranih u djelomičnom naboru i procijenjenog doprinosa nesavijenog dijela proteina. Ako djelomično preklapanje ima dovoljno dobar rezultat, algoritam se kreće naprijed i postavlja vrijednosti ugla phi/psi za sljedeću aminokiselinu. Djelomični nabori koji dovode do steričnih sukoba ili nepovoljnih rezultata se smanjuju, a pretraga se vraća na prethodnu aminokiselinu ili postavlja novu kombinaciju phi/psi kuta na trenutnoj aminokiselini.

Tehnike paralelnog particioniranja rijetko daju veliki faktor ubrzanja za rješenje stabala pretraživanja. HOPS implementiramo na paralelan način, ali koristimo novu tehniku ​​koja se zove prigovaranje. Vrijeme rješenja u stablima pretraživanja često varira s redoslijedom kojim se varijable traže. Nagging koristi ovu varijantu pretragom stabla u različitim redosledima.


DBAli: Zbirka poravnanja i alata za poređenje proteinske sekvence i strukture

Marc A. Mart-Renom i Andrej Sali
Laboratorije za molekularnu biofiziku
Porodični centar za biohemiju i strukturnu biologiju Pels
Univerzitet Rockefeller
1230 York Ave, Njujork, Njujork 10021, Sjedinjene Američke Države

Analiza mnogih poređenja poznatih proteinskih struktura je neophodna za poboljšanje usklađenosti proteinskih sekvenci sa srodnim strukturama. Cilj DBAli-a je olakšati takvu analizu. DBAli se sastoji od mnogih poravnanja i Perl programa za izvođenje distribucija i korelacija između niza svojstava sekvence i strukture proteina. Trenutno DBAli uključuje

2000 referentna parna poravnanja iz SCOP-a [1] i

125 višestrukih strukturnih poravnanja iz HOMSTRAD-a [2]. DBAli također ima veze sa drugim internim i eksternim resursima. Na primjer, Compare3D aplet [3] se koristi za vizualizaciju poravnanja sekvenci i superpozicije strukture. Opisane su tri aplikacije DBAli. Prvo, okarakterisana su strukturna okruženja umetanja i brisanja. Ove informacije će se koristiti za osmišljavanje bolje funkcije kažnjavanja jaza za poravnanje strukture sekvence u komparativnom modeliranju strukture proteina. Drugo, višestruka strukturna poravnanja sličnih struktura korištena su za konstruiranje različitih matrica za dipeptid-dipeptidne supstitucije. Ove nove matrice supstitucije će biti procijenjene za njihovu izvedbu u poravnanju sekvenci i strukture. Treće, da bi saznali o poteškoćama s kojima se susreće nekoliko programa za poravnanje sekvenci, sekvence iz referentnih poravnanja su ponovo poravnali ovi programi. Nova poravnanja su također dio DBAli. Za parna poravnanja korišteni su programi ALIGN [4], ALIGN2D [4], CLUSTALW [5] i PSI-BLAST [6]. Za višestruka poravnanja korišteni su MALIGN [4] i CLUSTALW. Opisane su greške u poravnanju koje su napravili ovi programi.
Reference

[1] Hubbard, T., Murzin, A., Brenner, S., i Chothia, C. Nucleic Acids Res 25, 236-9 (1997).
[2] Mizuguchi, K., Deane, C., Blundell, T., i Overington, J. Protein Sci 7, 24 69-71 (1998).
[3] Shindyalov, I. i Bourne, P. http://www.sdsc.edu/pb/ Software.htm.
[4] Sali, A., Selnchez, R., Badretdinov, A., Fiser, A., Melo, F., Overington, J., Feyfant, E., i Mart-Renom, MA http://guitar. rockefeller.edu/modeller/ (1999).
[5] Thompson, J., Higgins, D., i Gibson, T. Nucleic Acids Res 22, 4673-80 (1994).
[6] Altschul, S., Madden, T., Schaffer, A., Zhang, J., Zhang, Z., Miller, W., i Lipman, D. Nucleic Acids Res 25, 3389-402 (1997).



Pronalaženje grešaka sekvenciranja u sekvenci DNK na osnovu suštinskih svojstava regiona kodiranja: šta je sa dostupnim kompletnim prokariotskim genomima?

Claudine M'digue (1,2), Alain Viari (3) i Antoine Danchin (1)
(1) Institut Pasteur- REG - 28 rue du Docteur Roux, 75724 Paris Cedex 15, Francuska
(2) GENOPOL- Lab. d'Annotation des G nomes - 7 rue Montespan, 91000 Evry, Francuska
(3) Atelier de BioInformatique - Universit Paris VI - 12 rue Cuvier 75005, Pariz, Francuska

Tokom određivanja sekvence DNK, uvođenje artefaktičkih pomaka okvira i/ili stop kodona unutar okvira u navodnim CDS-ovima može dovesti do pogrešne translacije i preranog završetka pretpostavljenih transkripata. Detekcija takvih grešaka korištenjem metode zasnovane na podudaranju sličnosti proteina moguće je samo kada su povezane sekvence dostupne u bazama podataka [1,2]. Razvili smo novu metodu za otkrivanje grešaka pomaka okvira u djelomičnim ili potpunim genomima. Metoda, nazvana ProFED (Prokariotski Frameshift Errors Detection) je zasnovana na intrinzičnim svojstvima kodirajućih sekvenci i kombinuje rezultate dve komplementarne DNK analize: traženje translacionih mesta inicijacije/terminacije i predviđanje regiona kodiranja pomoću GeneMark metode [ 3]. ProFED metoda je ugrađena u našu Imagene platformu posvećenu označavanju sekvenci i analizi [4]. U prvom koraku, metoda je korištena za skrining kompletne sekvence genoma Bacillus subtilis i izvršene su eksperimentalne verifikacije (tj. ponovno sekvenciranje) na predviđenim pogrešnim regijama. Ovaj postupak potvrđuje ukupni kvalitet podataka i omogućava ispravljanje redoslijeda u skladu s tim. Zanimljivo je da u nekoliko slučajeva terminacijski kodoni unutar okvira ili pomaci okvira nisu bili greške u sekvenciranju, ali je potvrđeno da su prisutni u hromozomu, što ukazuje da su geni ili nefunkcionalni (pseudogeni) ili podložni regulatornim procesima kao što su programirani translacijski pomaci okvira. U drugom koraku, ProFED metoda je korištena za skrining dvadeset drugih dostupnih sekvenci prokariotskog genoma. Predviđene greške sekvenciranja nisu, u ovim slučajevima, potvrđene postupkom ponovnog redosljeda. Analiza dobijenih rezultata pokazuje da se naša strategija čini pouzdanim alatom za procjenu kvaliteta konačnih sekvenci za nove projekte genoma. Web stranica sa rezultatima naše analize je u izradi. Nadamo se da će takva kompilacija navodnih grešaka u sekvenciranju pomoći biolozima u ispravljanju trenutnih napomena genoma.

Reference :
[1] Claverie, J.-M. 1993. Detekcija pomaka okvira poređenjem sekvenci aminokiselina. J. Mol. Biol. 234: 1140-1157.
[2] Brown, N.P., C. Sander i P. Bork. 1998. Okvir: detekcija grešaka genomskog sekvenciranja. Bioinformatika 14 : 367-371.
[3] Borodovski, M. i J. D. McIninch. 1993. GeneMark: Paralelno prepoznavanje gena za oba lanca DNK. Comp. Chem. 17: 123-133.
[4] MÃdigue, C., F. Rechenmann, A. Danchin i A. Viari. 1999. Imagene : integrisano računarsko okruženje za beleženje i analizu sekvenci. Bioinformatika 15: 2-15.


Statistički potencijali za procjenu nabora u uporednom modeliranju

Francisco Melo, Roberto Sanchez i Andrej Sali
Univerzitet Rockefeller, Laboratorija za molekularnu biofiziku, 1230 York Avenue, #270, New York, 10021, SAD

Važno je procijeniti uporedni model prije nego što se koristi za rješavanje problema zbog kojeg je konstruiran. Korisno je prvo procijeniti da li model ima barem ispravan preklop. Model će imati ispravan preklop (dobar model) samo ako šablon ima ispravan preklop. Osim toga, poravnanje između šablona i modelirane sekvence mora biti suštinski ispravno. Procjena objektivnog modela posebno je važna u automatiziranom modeliranju cijelih genoma velikih razmjera gdje nije moguća intervencija korisnika. Komplet testova od približno 10.000 tačnih i netačnih modela napravljen je automatizovanim uporednim modeliranjem za sve neredundantne proteine ​​u Protein Data Bank. Testni modeli obuhvataju širok raspon veličina i tipa preklopa. Očekuje se da će distribucija tačnosti modela biti slična onoj za proračune modeliranja za cijeli genom. Različiti kriterijumi kvaliteta modela i metode diskriminacije testirani su na njihovu sposobnost razlikovanja između dobrih i loših modela. Kriterijumi su uključivali jedan i dva statistička potencijala ostatka srednje sile, broj ostataka u modelu, postotak identičnosti sekvence između ciljne sekvence i strukture šablona, ​​kompaktnost modela, ocjenu značajnosti za poravnanje ciljnog šablona i broj heteroatoma u strukturi šablona. Metode diskriminacije su uključivale linearnu i nelinearnu diskriminantnu analizu, genetske algoritme i Bayesove modele. Istražena je međuzavisnost, komplementarnost i odnosi između kriterijuma kvaliteta. Ova analiza nam je omogućila da poboljšamo tačnost klasifikacije modela. Trenutna metoda procjenjuje ispravno 95% modela u test setu, sa 5,0 i 5,9% lažno pozitivnih i lažno negativnih, respektivno. Metoda ima dobre rezultate u širokom rasponu osjetljivosti i specifičnosti.


Integrisani sistem baze podataka sekvenci sa HTTP programskim interfejsom

Katerina Michalickova i Christopher W.V. Hogue
Istraživački institut Samuel Lunenfeld, bolnica Mount Sinai,
600 University Avenue, Toronto, Ontario, Kanada
Odsjek za biohemiju, Univerzitet u Torontu, Medicinski fakultet, Zgrada medicinskih nauka, Toronto, Ontario, Kanada

Naše bioinformatičko istraživanje zahtijevalo je brz, jednostavan i pouzdan interni sistem baze podataka koji sadrži iste informacije koje se nalaze u javnim bazama podataka o biološkim sekvencama. Iskoristili smo resurse dostupne na ftp lokaciji Nacionalnog centra za informacije o biotehnologiji koja sadrži sve GenBank, SwissProt i PDB sekvence u Asn.1 binarnom obliku. Analizirali smo Asn.1 datoteke za indeksiranje informacija i pohranili ih zajedno sa originalnim Asn.1 binarnim podacima u CodeBase softveru (Sequiter Software Inc., Alberta). CodeBase sistem baze podataka omogućava nam da održavamo sve nukleotidne, proteinske i 3-D podatke unutar kuće u nekoliko pojedinačnih baza podataka. Sadržaj je isti kao i najnovije izdanje GenBank-a, može se ažurirati svakodnevno sa NCBI ftp stranice. U sadašnjoj fazi, web sučelje olakšava pretragu baze podataka za sekvence zasnovane na jedinstvenim geninfo identifikatorima (GI), pristupnim brojevima GenBank, nazivima originalnih sekvenci, identifikatorima taksonomije NCBI, identifikatorima medline, identifikatorima baze podataka molekularnog modeliranja (MMDB) i banci podataka proteina (PDB) identifikatori. Sve sekvence i 3-D strukture mogu biti prikazane u nekoliko formata kao što su definiciona linija, FastA format, Asn.1 format štampanja, GenBank ravni fajl, PDB ravni fajl. Upit također pokreće pretragu povezane nukleinske kiseline ili proteina. Taksonomija i Medline pretraživanja nude direktnu vezu do NCBI-a za dobivanje potpunih informacija o određenom taksonu ili objavljenom članku u vezi s redoslijedom od interesa. Razvili smo sopstveni interfejs za programiranje aplikacija (API) koji koristi interne baze podataka za dohvaćanje podataka i sa lokalnog diska i daljinski preko http interfejsa. API izvodi neke operacije koje nisu obrađene u Entrezu, kao što je dobijanje neredundantnog skupa sekvenci iz datog taksona, bolja kontrola podskupova sekvenci proteina, podrška formatu datoteke Clustal i informacije o sastavima proteinskih aminokiselina.


Univerzalno očuvane pozicije u proteinskim naborima: čitanje evolucijskih signala o stabilnosti, kinetici savijanja i funkciji

Leonid Mirny i Eugene Shakhnovich
odsjek za hemiju,
Univerzitet Harvard, Cambridge, MA, SAD

U ovom radu dajemo analizu molekularne evolucije pet najnaseljenijih proteinskih nabora: imunoglobulinskog nabora, nabora koji se vezuje za oligonukleotide, Rossmanovog nabora, alfa/beta-pletenice i TIM-barela. Kako bismo napravili razliku između "povijesnih", funkcionalnih i strukturnih razloga za očuvanje aminokiselina, razmatramo proteine ​​koji dobijaju isti nabor i nemaju evidentnu homologiju sekvence. Za svaki nabor identifikujemo pozicije koje su očuvane unutar svake pojedinačne porodice i koje se poklapaju kada su nehomologni proteini strukturno superponirani. Kao osnovu za statističku procjenu koristimo konzervativizam koji se očekuje prema dostupnosti solventa. Analiza se zasniva na novom konceptu "konzervativnosti konzervativizma". Ovaj pristup omogućava da se identifikuju strukturne karakteristike koje su stabilizovane u svim proteinima koji imaju dati nabor uprkos činjenici da stvarne interakcije koje obezbeđuju takvu stabilizaciju mogu varirati od proteina do proteina. Usporedba s eksperimentalnim podacima o termodinamici, kinetici savijanja i funkciji proteina otkriva da takvi univerzalno očuvani klasteri odgovaraju ili (i) super-mjestima ili (ii) jezgrima savijanja čija je stabilnost važna determinanta brzine savijanja, ili oboje (u slučaju Rossman fold). Prikazana analiza također pomaže da se razjasni odnos između savijanja i funkcije, koji je očigledan za neke nabore.


Niti s eksplicitnim modelima za evolucijsko očuvanje strukture i sekvence
Anna R. Panchenko, Aron Marchler-Bauer i Stephen H. Bryant
Ogranak za računarsku biologiju, Nacionalni centar za informacije o biotehnologiji, Nacionalni institut za zdravlje, Bethesda, MD 20894, SAD

Zbog brze evolucije proteinskih sekvenci, sličnost između proteina ponekad nije evidentna na nivou sekvence, iako njihove strukture mogu biti prilično slične. Ovi primjeri udaljenih homologa i analoga čine većinu potencijalnih ciljeva prepoznavanja nabora. Da bismo prepoznali udaljene veze, pokušali smo da kombinujemo fizički verodostojan potencijal zasnovan na kontaktu sa kvantitativnim opisima evolucionog očuvanja unutar proteinskih porodica. Prvo, namjerno smo konstruirali benčmark, koji je sadržavao slučajeve različitih raspona težine za prepoznavanje nabora. Zatim, za svaki protein iz našeg testnog skupa definirali smo matricu rezultata specifične za poziciju na osnovu višestrukih poravnanja sekvenci i očuvanih elemenata jezgre iz višestrukih superpozicija strukture i strukture. Threading je urađen korišćenjem algoritma za navojanje osnovnih elemenata, koji nije dozvoljavao praznine unutar osnovnih elemenata. Performanse kombinovane funkcije bodovanja merene su u odnosu na doprinos termina za očuvanje kontakta i sekvence da bi se analizirala važnost fizičkih i evolucionih signala. Pokazali smo da se najveće poboljšanje značaja navoja kao i tačnosti poravnanja uočava kada se spojni i motivski pojmovi kombinuju u jednakim omjerima u području procenta identiteta koji prelazi 15% i udjela očuvanih kontakata veći od 50%. Ovo zauzvrat implicira da funkcije bodovanja zasnovane na kontaktu i podudaranju motiva zaista dopunjuju jedna drugu jer interakcije kodirane u kontaktnim potencijalima određuju ukupnu topologiju proteina, dok motivi sekvenci specifičnih za porodicu definiraju jedinstvenu strukturu proteina.


Kombinacija dokaza iz različitih programa predviđanja genske strukture

Sanja Rogić(1) Francis Ouellette(2) Alan Mackworth(1)
(1) Odsjek za kompjuterske nauke, Univerzitet Britanske Kolumbije, Vancouver, Kanada
(2) Centar za molekularnu medicinu i terapiju, Univerzitet Britanske Kolumbije, Vankuver, Kanada

Tokom protekle decenije razvijeni su mnogi programi za kompjutersko pronalaženje gena. Koriste različite metode za identifikaciju strukture gena, od osnovnog pronalaženja otvorenog okvira čitanja do sofisticiranog mašinskog učenja i statističkih metoda. Primijećeno je [1] da će ove različite tehnike često ispravno predvidjeti različite elemente gena, sugerirajući da bi se mogli nadopunjavati, dajući bolje predviđanje.

Cilj našeg tekućeg istraživanja je da testiramo ovu hipotezu kombinovanjem predviđanja iz dva programa za pronalaženje gena, GENSCAN [2] i FGENES [3]. Programi su testirani na nezavisnom skupu podataka i njihova predviđanja se koriste za izgradnju stabala odluka, koja klasifikuju predviđene egzone prema njihovoj očekivanoj tačnosti. Eksoni sa visokim rezultatom su dalje integrisani u verodostojnu strukturu gena. Preliminarni eksperimenti pokazuju da bi izdvajanje tačno predviđenih egzona iz predviđanja ova dva programa moglo povećati procenat tačno identifikovanih egzona za 10% (trenutno je taj procenat za svaki program oko 75%).

Kako bismo dodatno poboljšali identifikaciju gena, posebno u sekvencama s više gena, planiramo integrirati NNPP [4], program za pronalaženje promotora, u naš sistem. Nizak sadržaj informacija oko ATG početne lokacije otežava pronalazačima gena da ispravno identifikuju početne egzone (obično ih predviđaju kao dio unutrašnjih egzona) i na taj način ne uspijevaju identificirati granice gena, što dovodi do spajanja gena. Predviđanje promotora NNPP dalo bi dodatne dokaze gdje bi trebao biti kraj gena 5'.

Važan dio našeg projekta je generiranje neredundantnog skupa podataka koji isključuje sekvence koje se koriste za obuku GENSCAN-a ili FGENES-a. Sadrži 579 ljudskih i mišjih sekvenci sa potpunim ili djelomičnim genima koji su prošli sve standardne procedure filtriranja za skupove podataka za pronalaženje gena.

Reference:
[1] K. Murakami i T.Takagi. Prepoznavanje gena kombinacijom nekoliko programa za pronalaženje gena. Bioinformatika, Vol. 14 br.8: 665-675, 1998.
[2] C. Burge i S. Karlin. Predviđanje kompletnih genskih struktura u ljudskoj genomskoj DNK. Journal of Molecular Biology 268: 78-94, 1997.
[3] http://genomic.sanger.ac.uk/gf/gf.html
[4] M. Reese i F. Eeckman. Neuralne mreže s vremenskim kašnjenjem za predviđanje eukariotskog promotora. U pripremi, 1999.


Anotacija sekvence od Splash-a

Ajay K. Royyuru (1), Andrea Califano (1), Gustavo Stolovitzky (1) i Lawrence Shapiro (2)
(1) Centar za računarsku biologiju, IBM Thomas J. Watson Research Center, PO Box 704, Yorktown Heights, NY 10598, SAD
(2) Program strukturalne biologije, Odsjek za fiziologiju i biofiziku, Medicinska škola Mount Sinai, 1425 Madison Avenue, New York, NY 10029, SAD

Glavni cilj projekta Human Genome je dobiti sekvence za sve gene u ljudskom genomu. Strategija sekvenciranja Expressed Sequence Tag (EST) pruža efikasno sredstvo za identifikaciju ljudskog "transkriptoma". Ovo, međutim, pruža samo sirovo očitavanje sekvence i ostavlja nerešenim težak zadatak pričvršćivanja funkcionalne napomene na svaku novu sekvencu.

Splash je algoritam za otkrivanje skupova uzoraka sekvenci koji karakteriziraju datu porodicu srodnih proteinskih sekvenci [1]. Pogodan je za otkrivanje potpisa sekvenci u funkcionalno srodnim proteinima.

Ovdje opisujemo protokol za označavanje EST-ova koristeći Splash. Protokol se sastoji od sljedećih koraka:
1. Prikupite skup funkcionalno povezanih proteinskih sekvenci,
2. Koristite Splash za identifikaciju skupa statistički značajnih uzoraka sekvenci koji karakteriziraju ovu funkcionalno srodnu porodicu proteina,
3. Analizirati i identifikovati relativni redosled i poziciju uzoraka sekvenci u svim pojavljivanjima u bazi podataka sekvenci,
4. Skenirajte EST bazu podataka (dbEST) da identificirate EST sekvence koje sadrže ove uzorke sekvenci u propisanom relativnom redoslijedu i poziciji.

Primijenili smo ovaj protokol na nekoliko porodica proteina i uspješno identificirali nove kandidate u DBEST-u. Na primjer, počevši od baze podataka od 68 sekvenci koje pripadaju C1q/TNF superfamiliji [2], Splash pronalazi dva statistički značajna obrasca sekvenci koji karakteriziraju ovu porodicu:
[ILMFV]. G[ILMFV]Y.[ILMFV]..[RQEHK]
[ILMV][ILMFV].L. [DQEK][RQEHK][ILMV]
Ovi obrasci se tačno preklapaju sa regionima identifikovanim kao strukturno jezgro odgovorno za strukturnu sličnost između nehomolognih porodica C1q i TNF proteina. Prilikom skeniranja DBEST-a za pojavu ovih obrazaca, nalazimo 17 sekvenci koje su već označene kao članovi C1q/TNF superfamilije. Osim toga, identificirali smo 6 novih (prethodno nenaglašenih) sekvenci kao potencijalnih članova C1q/TNF superfamilije.

Efikasnost i deterministička priroda Splash-a omogućavaju upotrebu ovog protokola za brzo označavanje u projektima sekvenciranja velike propusnosti.

[1] A. Califano. SPLASH: Analiza lokalizacije strukturnog uzorka pomoću sekvencijalnih histograma. Bioinformatika (Communicated, 1999).
[2] L. Shapiro i P. E. Scherer. Kristalna struktura proteina porodice komplementa-1q sugerira evolucijsku vezu s faktorom nekroze tumora. Current Biology, 8:335 - 338 (1998).


Računarski program za predviđanje genskog domena na sekvenci genoma riže

Katsumi Sakata (1), Hideki Nagasaki (2), Atsuko Idonuma (2), Kazunori Waki ​​(2), Masaki Kise (3) i Takuji Sasaki (1)
(1) Program istraživanja genoma riže (RGP), Nacionalni institut za agrobiološke resurse, Tsukuba, Japan
(2) Institut Društva za tehnološke inovacije poljoprivrede, šumarstva i ribarstva, Tsukuba, Japan
(3) Mitsubishi Space Software Co., Ltd., Tokio, Japan

Pirinač je jedna od glavnih žitarica i glavni je izvor hrane za otprilike polovinu svjetske populacije. Što se tiče analize genoma, ima prednost među ostalim žitaricama jer ima najmanju veličinu genoma procijenjenu na 430 Mb. U Programu istraživanja genoma riže (RGP), sekvenciranje cijelog genoma je pokrenuto 1998. godine i gotovo 1 Mb genomske sekvence je već završeno i dostupno javnom domenu putem DNK Data Bank of Japan (DDBJ) i RGP home stranica (http://www.dna.affrc.go.jp:82/). Gotove sekvence su označene da bi se odredili potencijalni geni koji kodiraju proteine ​​i/ili genske segmente. Kao dio anotacijske sheme, programi za predviđanje genskih domena korišteni su za predviđanje kodirajućih regija i/ili bioloških signala kao što su mjesta spajanja. Neki reprezentativni programi kao što su GENSCAN za kukuruz i Arabidopsis su ocijenjeni i utvrđeno je da su relativno korisni za sekvence genoma riže. Međutim, rezultati nisu bili potpuno zadovoljavajući jer se neke regije kandidata za gen sa sličnostima sa cDNK riže nisu mogle predvidjeti. Razvijali smo novi kompjuterski program za predviđanje genskih domena na sekvenci genoma riže na osnovu vjerovatnog modela koristeći katalog EST-ova riže razvijen u RGP-u. Ovaj katalog se sastoji od skoro 15.000 cDNK što odgovara otprilike jednoj trećini ukupnog broja gena riže. Prototipna verzija je završena i procijenjena. Program predviđa regione kandidata za gen računanjem koristeći probabilističku šemu skrivenog Markovljevog modela (HMM). Među glavnim karakteristikama programa su: (i) detaljan model za 3' neprevedeni region koji koristi više od 5000 cDNK sekvenci, i (ii) algoritam koji uključuje neke karakteristike sekvence genoma kao medija za prenos i skladištenje podataka.


EuGene: Jednostavan, ali efikasan pronalazač gena za eukariotske organizme (Arabidopsis thaliana)

Thomas Schiex, Annick Moisan, Lucien Duret, Pierre Rouze
INRA, Chemin de Borde Rouge, BP 27, Castanet-Tolosan, 31326 Cedex, Francuska

Standardno je, u detaljnoj napomeni sekvence, uzeti u obzir nekoliko izvora informacija kako bi se pokušalo precizno locirati gene (egzone/introne) u eukariotskim sekvencama. Izvori informacija koji se koriste obično uključuju podudaranja s bazama podataka (EST ili proteinske baze podataka), izlaz softvera za predviđanje signala kao što je NetGene2 ili Netstart (www.cbs.dtu.dk/services/) i manje ili više sofisticirani "integrirani" softver za pronalaženje gena kao što je GeneMark.hmm (genemark.biology.gatech.edu/GeneMark/) i/ili GENESCAN (gnomic.stanford.edu/

U skladu sa ovom idejom, osmislili smo jednostavan, opšti, efikasan, a opet efikasan pristup zasnovan na grafovima za pronalaženje gena koji omogućava istraživačima da kombinuju nekoliko izvora dokaza. Za dati niz, osnovna ideja je da se izgradi usmjereni aciklički ponderirani graf tako da sve moguće strukture gena budu predstavljene putem u grafu. Težine ivica grafa su definisane korišćenjem dostupnih dokaza na takav način da najkraći putevi u grafu odgovaraju strukturi gena koja "najbolje poštuje" ovaj dokaz. Jednostavan algoritam najkraćeg puta sa linearnim vremenom, linearnim prostorom, kao što je Bellmanov algoritam, jednostavno daje najbolju moguću strukturu gena. Pristup je uporediv (iako nije ekvivalentan) sa eksplicitnim trajanjem stanja skrivenim Markovljevim modelom sa ujednačenim gustoćama trajanja.

Napravljen je prvi prototip pod nazivom EuGene koji integriše sljedeće izvore informacija za Arabidopsis thaliana:
- izlaz pet interpoliranih Markovljevih modela (IMM) za okvire 1, 2, 3 eksona, introna i intergenskih sekvenci (procijenjeno na AraClean v1.1 skupu podataka, www.cbs.dtu.dk/databases/ARACLEAN).
- izlaz NetPlantGene i NetGene2 za snagu mjesta spajanja (neki parametri koji se koriste za izračunavanje težina iz izlaza su procijenjeni na AraClean-u).
- izlaz NetStarta za ATG snagu (neki parametri koji se koriste za izračunavanje težina iz izlaza su procijenjeni na AraClean-u).

Struktura i težine grafa se mogu definirati/modificirati korištenjem vrlo jednostavnog jezika koji dozvoljava izjavu kao što je "start f1371 0.4" (početak naprijed se javlja na poziciji 1371 sa jačinom 0.4). Slične rečenice dozvoljavaju uključivanje informacija o akceptorima, donorima, jačini egzonskog/introničkog/intergenskog stanja na bazi po nukleotidu. Ovo je zapravo automatski napravljeno od strane Perl skripte. Korisnik može jednostavno modificirati ovu datoteku i Perl skriptu kako bi po želji uključio druge izvore informacija.

Druga verzija ovim osnovnim informacijama dodaje rezultate iz EST i pretraživanja baza podataka proteina. Trenutna upotreba ovih informacija je još uvijek vrlo preliminarna: EST pogoci jednostavno uklanjaju introničke rubove, a proteinski pogoci blago pojačavaju egzonske snage.

Ovaj pristup je procijenjen na "AraSet" (ne AraClean!), nedavnom skupu podataka precizno označenih DNK sekvenci Arabidopsis thaliana koji je već korišten za procjenu nekoliko postojećih dijelova softvera za pronalaženje gena/signala (vidi http://sphinx. rug.ac.be:8080/biocomp/GeneComp/index.html, cijeli rad predstavljen na ovoj konferenciji).Na ovom skupu podataka, GeneMark.hmm je bio najbolji dostupni softver sa genskom osjetljivošću od 40% i specifičnošću gena od 32%. Prva verzija EuGene-a direktno daje gensku osjetljivost od 57% sa specifičnošću od 48%. Dalje uzimajući u obzir EST i protein (SPTR) BLAST hitovi daje gensku osjetljivost od 67% sa specifičnošću od 54%.

Ovaj izvještaj je vrlo preliminaran i očekujemo da ćemo značajno poboljšati efikasnost EuGenea u bliskoj budućnosti (i primijeniti ga na druge organizme). Zapravo, u poređenju sa drugim algoritmima za pronalaženje gena, EuGene je izuzetno jednostavan: koristi algoritam linearnog vremena, jedan skup Markovljevog modela i ne uzima u obzir dužinu egzona/introna ili drugih signala kao što su poliA ili promotori. Ovo bi trebalo ostaviti prostora za mnoga poboljšanja.


Učenje skrivene Markovljeve topologije modela za analizu sekvenci

Alexander Schliep
ZAIK/ZPR, Univerzitet u Kelnu, Keln, Nemačka

Skriveni Markovljevi modeli (HMM) su široko i uspješno korišteni alat u statističkom modeliranju i statističkom prepoznavanju obrazaca, pri čemu je pronalaženje gena jedan od najboljih primjera u kompjuterskoj biologiji. Jedan fundamentalni problem u primjeni skrivenih Markovljevih modela je pronalaženje osnovne arhitekture ili topologije HMM-a, posebno kada ne postoje jaki dokazi za određeni izbor iz domena aplikacije (npr. kada se radi modeliranje crne kutije). Ili slično, ako postojanje rijetko korištenih ili prečesto korištenih stanja nakon obuke sugerira da odabrana topologija ne odgovara dobro podacima.

Topologija je važna s obzirom na dobre procjene parametara i s obzirom na performanse: model s "previše" stanja - a time i previše parametara - zahtijeva previše podataka za obuku, dok model s "nedovoljno" stanja zabranjuje HMM-u da uhvati suptilne statistički obrasci.

Da bi se odredila "optimalna" topologija ili se koristi znanje iz domena aplikacije ili se koristi postupak pokušaja i grešaka koji koristi ad-hoc metode (tj. hirurgija modela), sistematske procedure su rijetko razmatrane (npr. spajanje Bayesovog modela, Stolcke i Omohundro ). Razvili smo novi algoritam koji će zaključiti HMM reprezentaciju (ergodičkog) procesa koji generiše sekvencu, bez prethodnog specificiranja topologije modela. To jest, mi zaključujemo o broju skrivenih stanja, dozvoljenim prijelazima i vjerovatnoćima tranzicije i emisije. Koristimo Bayesov pristup gdje odgovarajući prethodni na jednom ključnom parametru prisiljava generalizaciju (i time nužno smanjuje vjerovatnoću podataka) iz modela maksimalne vjerovatnoće.

Predstavićemo algoritam, neke od naših teoretskih rezultata i rezultate numeričkih eksperimenata na podacima o biološkoj DNK i sekvenci proteina.


Identifikacija novih signala koji reguliraju translaciju mRNA: efekti genskog konteksta

Mark Schreiber i Chris Brown
Odsjek za biohemiju, Univerzitet Otago, P.O. Box 56 Dunedin, Novi Zeland

Dobro je poznato da kontekst gena reguliše efikasnost i tačnost njegovog prevođenja sa mRNA na protein. Nekoliko elemenata je već identifikovano. Pokretanje translacije je regulirano Shine-Dalgarno ribozomskim veznim mjestom i nizvodnom kutijom kod mnogih bakterija, ili konsenzusom Kozaka kod Eukariota. Pokazalo se da upotreba pristrasnog podskupa kodona poboljšava translaciju u mnogim organizmima. Na efikasnost terminacije utiče i identitet okolnih nukleotida, kao što je ostatak koji prati stop kodone Escherichia coli. Koristeći TransTerm bazu podataka razvijenu na Univerzitetu Otago identifikovali smo dva navodna nova signala u Synechocystis sp. PCC6803 koji može regulirati prijevod. Neočekivano, čini se da genima Synechocystisa nedostaje konvencionalna bakterijska kutija Shine-Dalgarno. Umjesto toga, prethodno nezapažena konsenzusna sekvenca spaja startni kodon (CYAUGR) sa jakom pristrasnošću na poziciji -2. Informacijski sadržaj poravnanja početnih kodona pokazuje da bi ovaj element mogao biti dovoljan za prepoznavanje od strane ribosoma. Kontekst završetka Synechocystisa je također neobičan. Kod Escherichia coli identitet +1 nukleotida (četvrta baza) je veoma pristrasan i utiče na efikasnost terminacije na stop kodonima. Suprotno tome, +1 nukleotid Synechocystisa je pristrasan. Genetski reporterski sistemi su dizajnirani da proučavaju efekte ovih elemenata in vivo.


Modeliranje tercijarne strukture proteina sa SWISS-MODEL i SwissPdbViewer

Torsten F. Schwede, Nicolas Guex i Manuel C. Peitsch
GlaxoWellcome Experimental Research SA, 16 Chemin des Aulx, 1228 Plan-les-Ouates, Ženeva, Švicarska

Uvidi, koje 3-D struktura proteina može pružiti, su od velike pomoći prilikom racionalnog dizajna eksperimenata mutageneze. Eksperimentalne metode određivanja strukture proteina često su otežane tehničkim poteškoćama i zahtijevaju dosta vremena i resursa. Broj poznatih 3-D struktura proteina stoga predstavlja samo mali dio poznatih proteinskih sekvenci. U tom kontekstu nije iznenađujuće što su istraženi teorijski pristupi, od kojih je uporedno modeliranje proteina daleko najpouzdanije.

SWISS-MODEL i Swiss-PdbViewer
Razvili smo okruženje za uporedno modeliranje proteina koje se sastoji od SWISS-MODEL-a (http://www.expasy.ch/swissmod/), servera za automatizovano uporedno modeliranje proteina i SwissPdbViewer-a (http://www.expasy. ch/spdbv/) [1]. Swiss-PdbViewer ne samo da djeluje kao klijent za SWISS-MODEL, već također pruža veliki izbor alata za analizu strukture i prikaz. Softverski okvir SWISS-MODEL servera može se koristiti za generiranje velikih kolekcija proteinskih modela. Tokom 3DCrunch-a 1997. godine, eksperimenta modeliranja veoma velikog obima, 64.000 sekvenci iz baza podataka SWISS-PROT i trEMBL je modelirano od strane SWISS-MODEL-a [2], a više od 30.000 zahtjeva godišnje se prima preko WWW-interfejsa. Stavljajući takve alate na raspolaganje naučnoj zajednici, nadamo se da ćemo modeliranje proteina učiniti dostupnim biohemičarima i molekularnim biolozima širom svijeta.

Nedavna poboljšanja (verzija 3.5)
SwissModel server verzija 3.5 pruža bolju stabilnost i prevazilazi nekoliko ograničenja ranijih verzija baze podataka predložaka ExPDB. Na zahtjev, zahtjevi se mogu proslijediti na PredictProtein sekundarnu strukturu predviđanja [3] ili 3DPSSM fold recognition server (http://www.bmm.icnet.uk/

3dpssm/). Kvalitet konačnog modela se ocjenjuje pomoću WhatCheck-a [4] i šalje se detaljan izvještaj, kao i projektni fajl, koji sadrži strukture šablona i temeljno strukturno poravnanje. Bliska integracija SPDBV-a i SwissModel-a omogućava visoku fleksibilnost u podnesenim zahtjevima, uključujući korištenje vaših vlastitih šablonskih struktura. Funkcionalnost Swiss PdbViewer-a, koji se koristi kao grafičko korisničko sučelje za SwissModel, je proširena. Pruža jasan grafički prikaz (OpenGL, podržava hardverski stereo) i nekoliko alata za izgradnju i analizu modela, npr. minimizacija energije i površinski prikazi. Direktna serverska veza omogućava uvoz struktura i sekvenci iz različitih baza podataka. SPDBV je potpuna sekvenca za strukturiranje radnog stola, koja radi na PC-u, Linuxu, Macintosh-u i SGI-u [5].
1. Guex, N. & Peitsch, M.C. (1997). SWISS-MODEL i Swiss-PdbViewer: okruženje za uporedno modeliranje proteina. Electrophoresis, 18, 2714-2723.
2. Peitsch M.C. & Guex N. (1997) Komparativno modeliranje proteina velikih razmjera. u: Istraživanje proteoma: nove granice u funkcionalnoj genomici, str. 177-186, Wilkins MR, Williams KL, Appel RO, Hochstrasser DF eds., Springer.
3. Rost, B. (1996). PHD: predviđanje jednodimenzionalne strukture proteina pomoću neuronskih mreža zasnovanih na profilu. Meth. u Enzym., 266, 525-539.
4. Hooft, R.W.W., Vriend, G., Sander, C. & Abola, E.E., (1996). Greške u proteinskim strukturama. Nature 381, 272-272.
5. Guex N, Diemand A i Peitsch M.C. (1999) Modeliranje proteina za sve. TiBS, 24, 364-367.


Baza podataka udaljenih homoloških klastera

Lorenzo Segovia i Ricardo Ciria
Instituto de Biotecnolog a. UNAM, Meksiko

Motivacija:
Poduzeto je nekoliko pristupa za proučavanje odnosa strukture i funkcija u proteinima. Koonin et al. kreirali su bazu podataka ortologa (Clusters of Orthologous Groups, COGs), klasifikovanih po sličnosti i funkciji, na osnovu različitih genoma iz 6 glavnih filogenetskih grupa. Ovaj napor je dopunjen analizama kao što je GeneCensus pristup Gerstein et al. koji su proučavali odnose strukture i funkcija u PDB banci podataka tražeći korelacije između SCOP i EC klasifikacija.

Metoda i rezultati:
Postoji oko 1400 različitih unosa u PDB bazi podataka koji odgovaraju proteinima poznate strukture sa manje od 90% identiteta između njih zbog veoma velikog broja deponovanih mutantnih struktura. Koristili smo ovaj podskup da centriramo našu analizu. S obzirom da homolozi dijele isti nabor, analiza klastera sekvenci bi nam trebala omogućiti da izvučemo opšte zaključke o svakom naboru posebno. Pretražili smo u Swissprot37 koristeći Psi-blast, tražeći konvergentne grupe (30 iteracija sa zadanim parametrima), a zatim očistili pogotke da bismo ostavili samo sekvence sa manje od 90% identiteta (koristeći L. Holmovu nrdb90 perl skriptu). Zatim smo tražili uobičajene motive u svakom klasteru koristeći MEME 2.0 (-mod OOPS -nmotifs 5) i označili motive koristeći odgovarajuće Swissprot unose.

Analiziramo rezultate sa dvije različite tačke gledišta. Jedan je odrediti koje katalize češće koegzistiraju i na kojim naborima, a drugi je očuvanje funkcionalnih motiva u svakom klasteru i mapiranje eventualno relevantnih aminokiselina u neoznačenim udaljenim homolozima. Neke dodatne prednosti su stvaranje baze podataka koja bi se mogla koristiti za "preskakanje niza" za prepoznavanje preklopa, i obrnuto, identifikacija nultih pogodaka koji bi mogli biti kandidati za nova savijanja. Predstavićemo dosad pronađene rezultate i neke primjere klastera.


Pronalaženje prokariotskih gena algoritmom "okvir po okvir": ciljanje genskih početaka i preklapajući geni

Anton M. Shmatkov, Arik A. Melikyan, Felix L. Chernousko i Mark Borodovski1
Ruska akademija nauka, Institut za probleme u mehanici, Moskva 11526, Rusija
1School of Biology, Georgia Institute of Technology, Atlanta, GA 30332-0230, SAD

Čvrsto zbijeni prokariotski geni često se međusobno preklapaju. Ova karakteristika, rijetko viđena u eukariotskoj DNK, čini otkrivanje mjesta inicijacije translacije i, stoga, tačna predviđanja prokariotskih gena notorno teškim. Poboljšanje tačnosti preciznog predviđanja gena u prokariotskoj genomskoj DNK ostaje važan otvoreni problem. Razvijen je softverski program koji implementira novi algoritam koji koristi uniformni Hidden Markov model za predviđanje prokariotskih gena. Algoritam analizira datu sekvencu DNK u svakom od šest mogućih globalnih okvira čitanja nezavisno. Pomoću novog alata analizirano je dvanaest kompletnih prokariotskih genoma. Preciznost pronalaženja gena, predviđanje lokacija ORF-ova koji kodiraju protein, kao i tačnost preciznog predviđanja gena, otkrivanja cijelog gena uključujući kodon inicijacije translacije, procijenjeni su upoređivanjem sa postojećom anotacijom. Pokazalo se da u pogledu pronalaženja gena program radi barem jednako dobro kao i ranije razvijeni alati, kao što su GeneMark i GLIMMER. U smislu preciznog predviđanja gena, novi program se pokazao preciznijim, za nekoliko procenata, od ranije razvijenih alata, kao što su GeneMark.hmm, ECOPARSE i ORPHEUS. Rezultati testiranja programa ukazali su na mogućnost sistematske pristranosti u anotaciji startnog kodona u nekoliko ranih sekvenciranih prokariotskih genoma. Novom programu za pronalaženje gena može se pristupiti putem web stranice: http://dixie.biology.gatech.edu/GeneMark/fbf.cgi


MetaFam: Ujedinjenje proteinskih porodica

Elizabeth Shoop
Akademski zdravstveni centar, Centri za računarsku biologiju Univerzitet Minnesota, Minneapolis, MN, SAD

Opisujemo MetaFam, karakterizaciju porodice proteina izvedenu iz sveobuhvatnog teoretskog poređenja 10 javno dostupnih baza podataka porodice proteina (BLOCKS, DOMO, Pfam, PIR, PRINTS, PROSITE, ProDom, PROTOMAP, SBASE i SYSTERS). Porodice jedne baze podataka se uparuju s onima u drugoj kada je preklapanje u njihovom članstvu maksimalno. Pojedinačna podudaranja u paru se tranzitivno sastavljaju kako bi se kreirala nova lista superskupova porodice proteina. Ovi superskupovi imaju nekoliko prednosti: (1) Naši superskupovi sadrže najviše članova, jer svaka baza podataka familije komponenti radi sa podskupom našeg punog neredundantnog skupa proteina (2) Upitna dodjela pojedinačnih porodičnih baza podataka mogu se brzo pronaći, budući da naša analiza identifikuje pojedinačne članove koji su u sukobu sa konsenzusom većine (3) sada se mogu dodijeliti opisi porodice koji možda nedostaju iz automatiziranih baza podataka (4) izračunate su statistike upoređujući granice domena, porodične odnose nadskupa/podskupa i asocijacije domena (5) superskupovi su učitani u Oracle bazu podataka kako bi se omogućili složeni upiti i vizualizacija veza između porodica u superskupu i konsenzusa pojedinačnih članova. Javni pristup podacima dostupan je putem naše web stranice http://metafam.ahc.umn.edu/.


Novi gen unutar Neisserialnog odjeljenja i klastera gena za sintezu ćelijskog zida

Lori A. Snyder (1) i William M. Shafer (1,2)
(1) Odsjek za mikrobiologiju i imunologiju, Medicinski fakultet Univerziteta Emory, Atlanta, GA, 30322, SAD
(2) Laboratories of Microbial Pathogenesis, VA Medical Center, Decatur, GA, 30033, SAD

Tokom pregleda baze podataka Projekta sekvenciranja gonokoknog genoma Univerziteta u Oklahomi za dodatna mjesta vezivanja regulatora transkripcije MtrR, identificirano je navodno mjesto vezivanja povezano s klasterom sinteze diobe i ćelijskog zida (DCW) Neisseria gonorrhoeae. Analiza sekvence klastera gonokoknog DCW gena otkrila je njegovu snažnu homologiju sa DCW klasterima prethodno opisanim u Escherichia coli, Haemophilus influenzae i Bacillus subtilis. Ovdje su prikazane razlike između ovih klastera i DCW klastera koji se nalazi unutar serogrupe A sekvence Neisseria meningitidis soja Z2491 iz Sanger Centra Neisseria meningitidis Genome Sequencing Project. Poređenje sekvenci otkrilo je značajne razlike između gonokoknih i meningokoknih DCW klastera i onih drugih bakterija. To uključuje dodavanje najmanje tri otvorena okvira za čitanje, od kojih je najveći, orfA, odabran za dalje proučavanje. Poređenje sekvenci genoma ističe ovaj okvir čitanja kao neobičan po tome što je umetnut u regiju koja je normalno visoko konzervirana u smislu homologije, organizacije gena i vjerovatno bitne funkcije i kod Gram negativnih i Grampozitivnih vrsta. Biće predstavljeni rezultati komparativne analize sekvenci, kloniranja i ekspresije proteina kodiranog orfA i rezultati nokaut eksperimenata.


WEIGHBOR: Brža i preciznija rekonstrukcija filogenije zasnovana na udaljenosti

Nicholas D. Socci [1], Aaron L. Halpern [2] i William J. Bruno [3].
[1] Univerzitet Rockefeller, New York, NY 10021, SAD
[2] Univerzitet Novog Meksika, Albuquerque, NM 87131, SAD
[3] Nacionalna laboratorija Los Alamos, Los Alamos, NM 87574, SAD

Analiza sekvence upotrebom više sekvenci pretpostavlja da su potrebni odnosi među sekvencama. Svaka rigorozna statistička analiza zahteva da se evoluciono stablo rekonstruiše tako da se može uzeti u obzir. Rekonstrukcija stabla maksimalne vjerovatnoće bi se idealno koristila za izgradnju stabla, ali je prespora da bi se koristila na velikim poravnanjima.

Predstavljamo novu, ponderisanu metodu spajanja susjeda pod nazivom WEIGHBOR. Ova metoda koristi težine koje precizno odražavaju eksponencijalno povećanje varijansi i kovarijansi s udaljenosti. Težine se koriste i pri određivanju koji je par spojen i pri izračunavanju dužine grana.

Testovi pokazuju da je WEIGHBOR superiorniji od drugih metoda (Maksimalna štedljivost, Neighbor Joining, BIONJ i Fitch-Margoliash) u izbjegavanju pristrasnosti "duge grane privlače". WEIGHBOR također ne pati od "dugačkih grana koje ometaju", što uzrokuje nepotrebne greške u stablima koje su izgradili Neighbor Joining i BIONJ. WEIGHBOR je mnogo brži od metoda Fitch-Margoliash ili Maximum Likelihood za velike probleme, i može lako upravljati stotinama sekvenci. WEIGHBOR je mnogo efikasniji od Neighbor Joining-a i BIONJ-a, a u našim testovima je 80% do 95% efikasan kao Maximum Likelihood.

Posjetite www.t10.lanl.gov/billb/weighbor da preuzmete program.


Genomski potpis: Prihvatljivi su kratki fragmenti DNK

Alexandra Vaury, Alain Giron, Joseph Vilain, Bernard Fertil i Patrick Deschavanne
INSERM - U 494 - CHU Piti -Salp tri re, 91 boulevard de l'h pital, 75634 Paris cedex 13 - Francuska

Nedavna dostupnost dugih, pa čak i kompletnih genomskih sekvenci otvara novo polje istraživanja posvećeno opštoj analizi njihove globalne strukture, bez obzira na interpretaciju gena. Naš pristup koristi prednosti CGR-a (Chaos Game Representation), modificiranog ovdje kako bi omogućio kvantifikaciju, koji proizvodi slike koje prikazuju upotrebu, u smislu frekvencija, riječi (male sekvence do 8 nukleotida) i otkrivaju ugniježđene obrasce u sekvencama DNK. Pokazao se kao brza i robusna metoda za izdvajanje informacija iz dugih sekvenci DNK, omogućavajući poređenje sekvenci i otkrivanje anomalija u frekvenciji riječi. Uočili smo da podsekvence genoma pokazuju glavne karakteristike cijelog genoma na takav način da se određena slika može povezati sa svakom vrstom i stoga se može smatrati genomskim potpisom. Udaljenost između slika može kvantifikovati filogenetsku blizinu. Eukarioti i prokarioti, na primjer, mogu se diskriminirati samo na osnovu njihove DNK strukture. Ovaj rad se bavi dva povezana pitanja o genomskom potpisu. i/ koliko DNK fragment mora biti dugačak da bi dobio dostojan potpis ii/ da li postoji optimalna dužina za riječi koje se analiziraju šesnaest kompletnih genoma (ili vrlo dugih genomskih sekvenci) je isječeno na podsekvence od 100 kb do 1 kb. Slike dobijene iz fragmenata su upoređene i klasifikovane korišćenjem analize glavnih komponenti kao koraka predobrade (da bi se smanjila količina informacija) praćenog nenadziranim algoritmom grupisanja. Utvrđeno je da se porijeklo većine fragmenata DNK može ispravno odrediti. Općenito je pravilo da se prepoznavanje fragmenata povećava s veličinom fragmenata i dužinom riječi kako bi se postigao gotovo savršen rezultat s fragmentima od 25 kb i riječima od 5 slova. Stoga se čini mogućim izvršiti globalno poređenje vrsta pomoću fragmenata genoma koji se nalaze u bazama podataka.


Od genoma do sekvence proteina do 3D strukture: susjedi proteina u genomima Entrez

Yanli Wang, Tatiana Tatusova, Roman Tatusov, Steven Bryant
Nacionalni centar za biotehnološke informacije,
Nacionalna medicinska biblioteka,
Nacionalni institut za zdravlje, Bethesda, MD, SAD

Predstavljena je nova WWW aplikacija koja pruža veze između genomskih proteinskih sekvenci i 3D struktura koristeći informacije o sličnosti proteinskih sekvenci iz BLAST pretrage. Ova WWW stranica je visoko integrirani bioinformatički resurs. Rezultati su prethodno izračunati za sve proteine ​​iz kompletnih mikrobnih genoma u bazi podataka Entrez Genomes. Detektovane su susedske veze sa proteinima sa poznatim 3-dimenzionalnim strukturama. Parna poravnanja sekvenci su predstavljena grafički i povezana sa Cn3D preglednikom koji omogućava istovremeno prikazivanje 3-dimenzionalnih struktura, sekvenci i poravnanja tekstualnih sekvenci. Pored toga, veze do MMDB (The Molecular Modeling Database)-Entrez-ove 3D baze podataka pružaju korisnicima unaprijed izračunate susjedne strukture sa VAST-om (Alatom za pretraživanje vektorskog poravnanja), bazom podataka susjeda strukture koja često identificira udaljene homologe. Nedavni napredak u naporima za sekvenciranje rezultirao je 22 kompletna mikrobna genoma. Većina gena nema pouzdane funkcionalne oznake. Traženje dobro označenih homologa u bazi podataka, posebno u bazama podataka o strukturi, važan je način za razumijevanje funkcija ovih proteina. U našem trenutnom susjednom sistemu, među preko 20 kompletnih genoma, oko 20% gena ima susjede u bazi podataka strukture MMDB otkrivene jednostavno pomoću BLAST algoritma sa strogim kriterijima. Entrezov 3D preglednik 3D donosi veliku lakoću za analizu i vizualizaciju poravnanja sekvenci i strukture. Poređenja sekvenci i strukture zajedno mogu pružiti moćnu metodologiju za funkcionalno označavanje mikrobnih proteina. Planiramo da u budućnosti izvršimo ovu analizu za kompletne eukariotske genome.


GI(TM) - Softver baziran na Javi za analizu gela

Mark Welsh, Hong Guo, Martin D. Leach
Bioinformatika, CuraGen Corporation, New Haven, CT, SAD

Veliki projekti sekvenciranja zahtijevaju visokokvalitetne analize gela bez kompromisa u brzini. Da bi zadovoljio takve potrebe, CuraGen je razvio OGI(TM) (Open Genome Initiative), web-baziranu klijent-server aplikaciju u Javi za gel analizu visoke propusnosti. Ovaj klijent-server dizajn omogućava operateru, koristeći bilo koji web pretraživač, da kontroliše obradu na mnogim OGI serverima, od kojih svaki uzima izlaz iz nekoliko sekvencera. Trenutno, OGI podržava sekvenciranje na ABI 377(TM) i MegaBACE(TM) 1000 mašinama. Unutar web pretraživača, Java aplet komunicira sa serverom koristeći RMI (Remote Method Invocation). Višenitna Java aplikacija na serveru zakazuje korake obrade slika koje zahtijevaju CPU. Tragovi sekvence se analiziraju korišćenjem CuraGen-ovog svestranog DOLPHIN™ procesora praćenja, a zatim se pozivaju na osnovu pomoću PHRED-a (Ewing et al., 1998). OGI je dizajniran kao otvoren i proširiv okvir, koji će s lakoćom prihvatiti nove korake obrade i potpuno nove tokove podataka. Sposobnost OGI-a da koordinira obradu i analizu podataka koristeći internet čini ga idealnim za postrojenja za sekvencioniranje visoke propusnosti. OGI-jeve Java i ANSI-C izvršne datoteke biće dostupne preko naše web stranice: www.curagen.com.

Ovo istraživanje je podržano grantom NIH-a.


GeneHacker Plus: Integrisani HMM za pronalaženje bakterijskih gena

Tetsushi Yada, Yasushi Totoki (1) Kenta Nakai (2)
(1) Genome Sciences Center, RIKEN, Japan
(2) Centar za ljudski genom, IMS, Univerzitet u Tokiju, Japan


Pogledajte video: Ljudi, mi smo TAOCI DISTORZIJE i vremenskog PORTALA - Dr NESTOROVIĆ se UBO pre 5 GODINA! (Decembar 2022).