Informacije

Sekvenciranje genoma poliploidnih organizama

Sekvenciranje genoma poliploidnih organizama


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

U prošlosti sam radio neke transkriptomske radove s poliploidnim organizmom, a to je predstavljalo neke jedinstvene izazove u obradi i analizi podataka. Od tada razmišljam o tehničkim izazovima s kojima se može suočiti prilikom sekvenciranja i sastavljanja genoma poliploidnog organizma. Koliko ja znam, ne postoje poliploidi čiji su genomi sekvencirani.

Ako se želi sekvencirati, na primjer, tetraploidni organizam, jedan pristup bi bio da se pripremi i sekvencira sva DNK zajedno, a zatim se osloni na analizu nakon sekvenciranja kako bi se razdvojila dva ko-rezidentna genoma. Međutim, bilo bi teško, ako ne i nemoguće, s ovim pristupom razlikovati varijacije među genomima od varijacija unutar genoma.

Alternativni pristup bi bio da se izoluje DNK iz oba korezidentna genoma odvojeno, a zatim se sekvenciraju i sastavljaju genomi odvojeno, tako da varijacije među genomima i homologija ne moraju biti razmatrane. Međutim, razmišljam na vrlo visokom nivou i imam malo intuicije u pogledu tehničke izvodljivosti ovog pristupa. Kada postoje dva ili više su-rezidentnih genoma, je li moguće izolirati DNK samo iz jednog od tih genoma? Na šta bi se ovo oslanjalo (na primjer, da li bi temeljita citogenetska/citogenomska karakterizacija pomogla)? Ako ovaj zadatak nije moguć, koje se vrste ograničenja moraju prevladati da bi se to omogućilo?


Pogledajte strategije koje se koriste za sekvenciranje genoma pšenice. Pšenica je heksaploidna. Projekat je opisan na http://www.wheatgenome.org/.

Za rani rad na genomu kukuruza upotrijebili smo metilnu filtraciju kako bismo smanjili složenost i veličinu genoma - transpozoni se filtriraju, a geni + promotori ostaju. Sekvence gena se razlikuju od dva genoma, tako kaže teorija, i one se mogu razlikovati. Za referencu pogledajte http://www.ncbi.nlm.nih.gov/pubmed/10545948.


Biologija sljedeće generacije: Pristupi sekvenciranja i analize podataka za ne-modelne organizme

Kako tehnologije sekvenciranja postaju pristupačnije, sada je realno predložiti proučavanje evolucijske povijesti gotovo svakog organizma na genomskoj razini. Međutim, kada se radi o organizmima koji nisu model, nije uvijek lako odabrati najbolji pristup s obzirom na specifično biološko pitanje, ograničen budžet i izazovan uzorak materijala. Nadalje, iako nedavni napredak tehnologije nudi neviđene mogućnosti za istraživanje ne-modelnih organizama, oni također zahtijevaju neviđenu svijest istraživača o pretpostavkama i ograničenjima svake metode.

U ovom pregledu predstavljamo pregled trenutnih tehnologija sekvenciranja i metoda koje se koriste u tipičnim cjevovodima za analizu podataka velike protočnosti. Nakon toga, kontekstualiziramo visokopropusne tehnologije sekvenciranja DNK u okviru njihove primjene u ne-modelnoj biologiji organizma. Uključujemo savjete u vezi s upravljanjem nekonvencionalnim uzorkom, komparativnim i populacijskim genetskim pristupima koji ne zahtijevaju potpuno sastavljene genome, te savjete o tome kako se nositi s podacima o sekvenciranju na maloj dubini.


Najveći sekvencirani genom na svijetu je samo početak

Danas je objavljen genom bora loblolly bora Biologija genoma - najveći do sada u nizu. Ovaj rad je uglavnom važan jer su autori napravili značajna poboljšanja u procesu koji naučnici koriste za sekvenciranje velikih i složenih genoma poput gena bora. Jer priznajmo, vjerojatno neće dugo držati rekord. Tehnologije sekvenciranja genoma brzo se razvijaju i u toku su stotine inicijativa za sekvenciranje.

Dakle, malo definiranja pojmova. Sekvenciranje je kada razradite tačan kod DNK baza A, C, G i T koje čine genom. Ali možete procijeniti broj baza u genomu, a da ne znate koje su, pa imamo mnogo informacija o veličini različitih genoma, a da ne znamo točno što se u njima nalazi. Kao da znate koliko stranica ima knjiga, a da niste pročitali tačno koja slova se nalaze na svakoj stranici. One se mjere u parovima baza, pošto je DNK dvostruka spirala, tako da su baze uvijek u parovima.

Naša infografika koja uspoređuje najveće i najmanje poznate genome. Gdje stojimo? Kliknite na sliku da biste vidjeli izbliza.

Samo je pronalaženje brojki za sastavljanje ove infografije nekih od najzanimljivijih genoma bilo izazov - mijenja se cijelo vrijeme! Tražili smo 'najmanji' genom naveden na tabeli na Wikipediji, ali smo otkrili da je zamijenjen otkrićem još manjeg genoma. Osporavan je najveći genom bilo kojeg organizma - 640.000.000.000 parova baza male amebe Polychaos dubiu je sporno, jer je njegova veličina procijenjena prije nego što su moderne tehnike razvijene, pa bi moglo biti pogrešno! Dakle, najvjerovatniji kandidat za najveći genom je zapravo Paris japonica.

Biljke često imaju ogromne, složene genome. To je ponekad zato što se njihovi genomi spontano udvostručuju, pa umjesto da budu u parovima (A diploidni organizam), njihovi kromosomi su u grupi od 4 ili više - oni se nazivaju poliploidni i imaju tendenciju da imaju ogromne genome. Nevjerojatna stvar u vezi loblolly bora, koji je trenutno najveći sekvencirani genom, sa 22,18 milijardi parova baza, je to što je on zapravo diploid, pa njegova veličina i složenost nemaju nikakve veze s udvostručavanjem kromosoma. Sekvenciranjem genoma otkriveno je da se zapravo veliki dio njegove količine svodi na ponavljajuće dijelove sekvence.

Iako je ljudski genom imao veliki utjecaj na medicinsko liječenje i istraživanje i bio je veliki korak naprijed u tehnologiji sekvenciranja, moj lični favorit od svega je genom bakterija koji je napravio čovjek na Institutu J. Craig Venter 2010. Zasnovan je na Mycoplasma mycoides genom i od milja poznat kao Mycoplasma mycoides JCVI-syn1.0. Procjenjuje se da je izrada ovog sintetičkog genoma koštala 40 miliona američkih dolara i za 20 ljudi je trebalo više od deset godina rada. Bio je to nevjerovatan dokaz principa da možete sintetizirati genom organizma i natjerati ga da radi u živom tijelu. Bar za bakterije.

Etičke i društvene implikacije ovoga su ogromne, pa je ovo bio zaista kontroverzan razvoj – nešto po čemu je Institut dobro poznat! Njihov trenutni rad uključuje nevjerojatne stvari poput Projekta humanih mikrobioma i sintetičke bakterije za rješavanje nivoa ugljika. Dakle, oni su samo jedno mjesto koje seže dalje od onoga što je u genomu, do onoga što možemo učiniti s njim.

Sekvenciranje genoma je neverovatno, jer otvara toliko novih pitanja i mogućnosti za nauku. Dakle, iako će zapisi u ovoj infografici - iako su bili tačni u vrijeme pisanja ovog članka - zasigurno biti istisnuti, možemo biti sigurni u jedno - genom je tek početak priče.


Uvod u poliploidiju

Fuzija dva ili više genoma unutar jednog jezgra dovodi do poliploidije, pa svaka ćelija sadrži više od dva para homolognih kromosoma. Poliploidija se javlja u većini kritosjemenjača i važna je u poljoprivrednim kulturama od kojih ljudi ovise za opstanak. Primjeri važnih poliploidnih biljaka koje se koriste za ishranu ljudi uključuju: Triticum aestivum (pšenica), Arachis hypogaea (kikiriki), Avena sativa (ovs), Musa sp. (banane), mnoge poljoprivredne Brassica vrsta, Solanum tuberosum (krompir), Fragaria ananassa (jagoda), i Coffea arabica (kafa). Autopoliploidija je rezultat duplikacije cijelog genoma, dok alopoliploid karakteriziraju interspecifične ili intergeneričke hibridizacije praćene udvostručenjem hromozoma (Doyle et al., 2008 Chen, 2010). Dupliranje genoma (autoploploidija) može biti izvor gena sa novim funkcijama koje vode do novih fenotipova i novih mehanizama za adaptaciju (Crow i Wagner, 2005). Autopoliploidi obično pate od smanjene plodnosti, dok alopoliploidi imaju potencijal za heterozis ili hibridnu snagu (Ramsey i Schemske, 1998). Poliploidija stvara veliku genetsku, genomsku i fenotipsku novinu (Soltis et al., 2016), međutim, veća složenost između genotipa i fenotipa u poliploidima u usporedbi s diploidnim biljkama čini povezivanje genotipa s fenotipom izazovnim zadatkom. Na primjer, alopoliploidne biljne stanice imaju složene regulatorne mehanizme kako bi ujedinili ekspresiju gena između homeologa i definirali njihov relativni doprinos konačnom fenotipu. Stoga je poliploidizacija jedna od glavnih sila evolucije biljaka i usko je povezana sa specijacijom i raznolikošću (Bento et al., 2011). Procjenjuje se da su oko 80% svih živih biljaka poliploidi (Meyers i Levin, 2006), dok mnoge biljne loze uključujući monokote (tj. Oryza) i eudicoti (Arabidopsis) imali barem jedan događaj paleo-poliploidije u svojoj istoriji.


1. UVOD

Genomska sekvenca ljudske jedinke može se modelirati kao 23 para sekvenci od četiri nukleotidne baze, A, C, G i T, koje predstavljaju 22 para autosoma i polnih hromozoma. Međutim, ∼99,5% sekvenci genoma bilo koje dvije jedinke dijeli se unutar populacije. ∼0,5% nukleotidnih baza varira unutar populacije od jedno-nukleotidnih polimorfizama (SNP-ova) do složenijih strukturnih promjena, na primjer, brisanja ili umetanja genomskog materijala. Niz genomskih varijanti, tipično SNP-ova, sa uklonjenom DNK se ne razlikuje se naziva a haplotip.

Standardni tokovi sekvenciranja genoma proizvode susjedne segmente DNK nepoznatog kromosomskog porijekla. De novo sklopovi za genome sa dva seta hromozoma (diploidni) ili više (poliploid) proizvode konsenzus sekvence u kojima je relativna faza haplotipa između varijanti neodređena. Skup očitavanja sekvenciranja može se mapirati u fazno-dvosmislen referentni genom i može se odrediti porijeklo diploidnog hromozoma, ali, bez znanja o haplotipskim sekvencama, čitanja se ne mogu mapirati u određeni haploidni hromozomski niz. Kao rezultat toga, algoritmi za sastavljanje genoma zasnovani na referencama također proizvode nefazirane sklopove. Međutim, čitanja sekvenci su izvedena iz jednog haploidnog fragmenta i tako daju vrijedne informacije o fazi kada sadrže dvije ili više varijanti. The problem montaže haplotipa ima za cilj izračunati sekvence haplotipa za svaki kromosom s obzirom na niz poravnatih očitavanja sekvence u podatke o genomu i varijanti. Faza haplotipa varijanti se zaključuje iz sklapanja preklapajućih sekvenci [ Browning and Browning (2011) Halldórsson et al. (2003) Schwartz (2010)].

Ulaz za problem sklapanja haplotipa je matrica M čiji redovi odgovaraju poravnatim fragmentima čitanja, a kolone odgovaraju SNP-ovima (slika 1). Kvaliteta MKonstrukcija ovisi o parametrima tijeka rada za sekvenciranje i točnosti pročitanih algoritama za poravnavanje. Neusklađeni fragmenti čitanja mogu dovesti do pogrešnih poziva baze ili pristranosti uzorkovanja, tako da je pažljivo poravnanje čitanja sekvence neophodno za visokokvalitetne sklopove haplotipa. Bez grešaka u poravnanju čitanja ili sekvenciranju, problem sklapanja haplotipa može se riješiti linearno u vremenu veličine M dijeljenjem fragmenata u dva skupa pri čemu nijedan fragment unutar skupa ne dijeli SNP i razlikuje se u zvanom alelu. Za rješavanje pogrešnih osnovnih poziva ili pogrešno postavljenih poravnanja, razvijene su tri optimizacije sklopa primarnog haplotipa: minimalna korekcija grešaka (MEC), minimalno uklanjanje SNP -a (MSR) i minimalno uklanjanje fragmenata (MFR). Cilj je konverzija M u stanje takvo da fragmenti (redovi M) mogu se distribuirati u dva skupa koji odgovaraju dvama haplotipovima. Svi fragmenti u setu moraju se složiti oko alela na svakom mjestu SNP -a, a to se postiže korištenjem minimalnog broja preokreta alela SNP -a (0 do 1 ili obrnuto - MEC), SNP -a (kolone M) uklanjanja (MSR) ili fragmenta ( redovi M) uklanjanja (MFR).

Konstrukcija inputa za problem sklapanja haplotipa

Konstrukcija ulaza u problem sastavljanja haplotipa

Lancia et al. (2001) i Rizzi et al. (2002) pružaju teorijsku osnovu za optimizaciju MFR -a i MSR -a i opisuju temeljne strukture grafika sukoba SNP -a i fragmenata. Prvi široko dostupan softverski paket za sklapanje haplotipa predstavljen je u Panconesi i Sozio (2004) u kojem autori opisuju algoritam Fast Hare, koji optimizira problem 'Min Element Removal'. Bansal et al. (2008) opisuju model lanca Markov s pravilima ažuriranja Metropolisa kako bi uzorkovali skup vjerovatnih haplotipova pod optimizacijom MEC -a. U nastavku, autori predstavljaju mnogo brži algoritam na povezanom modelu grafikona koji povezuje maksimalne rezove sa preokretima alela SNP (u modelu MEC) [Bansal i Bafna (2008)]. Drugi su autori sugerirali smanjenje poznatog problema maksimalne zadovoljivosti [He et al. (2010) Mousavi et al. (2011)] Levy et al. (2007) algoritam je dobro poznati heuristički koji se koristio za haplotipsko sastavljanje HuRef genoma, dodjeljuje fragmente haplotipovima na pohlepni način i iterativno rafinira rješenje upoređujući skup fragmenata sa okupljenim haplotipovima koristeći faziranje pravila većine. U nedavnom istraživanju, Geraci (2010) opisuje Levy et al. (2007) algoritam kao, vjerovatno, najbolji algoritam testiran.

Prvo proširenje problema sastavljanja haplotipa koje se bavilo istovremenom montažom više diploidnih kromosoma predstavljeno je u Li et al. (2006) međutim, koristi od sastavljanja više haplotipova nisu jasne za skup nepovezanih pojedinaca. Halldorsson et al. (2011) nastavio je razvoj ove teorije opisujući metode za okupljanje pojedinaca koji dijele haplotip identičan po porijeklu (IBD) koristeći odnose među čitanjima.

Aguiar i Istrail (2012) predstavili su novu strukturu podataka grafa, algoritamski okvir i optimizaciju minimalnog ponderiranog uklanjanja ruba (MWER), koji zajedno imaju nekoliko prednosti u odnosu na postojeće metode. Podsjetimo da su redovi M odgovaraju fragmentima za čitanje sekvence sa uklonjenim polimorfnim bazama tako da ostaju samo SNP-ovi. HapCompass model definiran u Aguiaru i Istrailu (2012.) sastoji se od grafa kompasa GC osnovna struktura podataka, koja sumira redove M koristeći težine ivica i MWER optimizaciju koja ima za cilj uklanjanje minimalnog ponderisanog skupa ivica iz GC tako da se može konstruisati jedinstvena faza. Algoritam radi na bazi ciklusa razapinjućeg stabla GC da se iterativno otklone greške koje se manifestuju kroz određeni tip jednostavnog ciklusa [ Deo et al. (1982) Mac Lane (1937)].

U ovom radu dokazujemo brojne teorijske rezultate za prethodno opisanu optimizaciju MWER -a na grafovima kompasa. Glavni rezultat dokazuje da je MWER NP-tvrd i motivira upotrebu naših heurističkih algoritama. Nadalje, pokazujemo kako proširenja generaliziranog diploidnog HapCompass modela mogu omogućiti (i) upotrebu različitih optimizacija, na primjer, MEC i MWER, za korištenje u koraku lokalne optimizacije, (ii) istovremenu montažu dviju osoba koje dijele trakt haplotipa IBD i (iii) sklop haplotipa jednog poliploidnog organizma. Na kraju, procjenjujemo naše metode na projektu 1000 genoma, Pacific Biosciences i simuliranim podacima.


3 BIOLOŠKA IZAZOVA

Stvaranje susjednog sklopa genoma na razini kromosoma očito je ideal za skup genoma. Jedan od glavnih izazova za sklapanje kontinualnog sklopa genoma na nivou hromozoma su repetitivni regioni genoma (Tørresen et al., 2019). Ponavljajuće regije uključuju proširene porodice gena, složene ponavljanja, visoko ponavljajuće se regije poput centromera i telomera i spolnih kromosoma, ili barem njihovih dijelova. Većina velikih genoma (iz bilo koje klase) se vrlo često ponavljaju, a složena ponavljanja i dalje predstavljaju problem za ljudski genom uprkos ogromnim resursima posvećenim ovoj skupštini (Chaisson et al., 2015). Heterozigotnost između haplotipova u diploidnim i poliploidnim organizmima još je jedan veliki izvor grešaka u sklopovima genoma.

3.1 Ponavljajuće se regije

Kako se tehnologije poboljšavaju i duljina čitanja raste, povećava se i mogućnost raspona po regijama koje se ponavljaju. Da bi se prevladao izazov sekvenciranja regija koje se ponavljaju, čitanja moraju biti dovoljno dugačka da se usidre u neponovljivom nizu i da se protežu preko ponavljanja. Ako je dužina očitavanja (znatno) veća od područja ponavljanja, ponavljanja se mogu proširiti i treba omogućiti sastavljanje regije (na primjer, vidjeti Bongartz, 2019). Nedostatak regija koje se ponavljaju znači moguće da nedostaju i geni u genomu (Peona et al., 2018). Centromere i telomere predstavljaju jedinstvene izazove, ali su važni za biologiju genoma (na primjer, Bichet et al., 2020) u mnogim organizmima centromere i telomere su dugačke i telomere se ne mogu usidriti neponavljajućim nizom na obje strane s obzirom na njihovu lokaciju na kromosomima. Druga klasa hromozoma koji predstavljaju izazov su polni hromozomi. Neki spolni kromosomi su se degenerirali u mnogim vrstama sa samo vrlo ponavljajućom sekvencom i preostalom kratkom pseudo-autosomnom regijom (Kejnovsky i sur., 2009 Smith i sur., 1987). Evolucijski mladi spolni kromosomi imaju isti trend (Bachtrog et al., 2019), što sugerira da sklop polnih kromosoma može biti izazov za mnoge organizme. Uspješno sastavljanje Y kromosoma trospinog štapnjaka, starog manje od 26 miliona godina i u srednjoj fazi degeneracije, uključivalo je dugotrajno sekvenciranje, pažljivo kuriranje i podjelu X- i Y-povezanih kontigova nakon čega slijedi Hi- C skele (Peichel et al., 2020). Adekvatnom sastavljanju degeneriranih polnih hromozoma najbolje će se pristupiti i na kraju će zahtijevati dugo čitanu tehnologiju koja se proteže po dužini cijelog hromozoma.

3.2 Ploidnost

Što se tiče ploidnosti, haploidni genomi su najjednostavniji za sastavljanje. Uz pretpostavku ponavljanja raspona čitanja, postoji jedna neprekidna sekvenca bez heterozigotnosti za pojedinca odabranog za sklapanje genoma. Veliki problem s diploidima i poliploidima je da postoji heterozigotnost između dvije ili više kopija genoma u jednoj individui. U nekim sklopovima genoma, bilo je pokušaja da se smanji heterozigotnost prije sekvenciranja, na primjer inbreedingom (Zhang, Li, et al., 2020.) ili stvaranjem udvostručenih haploidnih jedinki (Berthelot et al., 2014. Linsmith et al., 2019.). Međutim, inbreeding ili stvaranje udvojenih haploida u biti je nemoguće za veliku većinu vrsta koje se pojavljuju u prirodnom okruženju. Tipičan način na koji se informacije o sastavljanju genoma čuvaju u jednom lancu znači da se haplotipovi kolabiraju u jednu sekvencu. Viši nivoi heterozigotnosti između dva homologna hromozoma (u slučaju diploida) povećavaju ovaj izazov, sa konačnom nemogućnošću kolapsa dva haplotipa, precenjivanjem veličine genoma i precenjivanjem složenosti. U poliploidnim svojtama, opseg i složenost pitanja sastavljanja vezanih za heterozigotnost dodatno se pojačavaju (Kyriakidou et al., 2018). Drugi pristup rješavanju haplotipova je trino binning. Trino binning postiže se sekvenciranjem roditelja organizma kratkim čitanjem, a zatim dodjeljivanjem dugih čitanja za pojedinu osobu određenom roditelju (Koren i sur., 2018, Yen i sur., 2020). Trio binning je obećavajući put za rješavanje haplotipova, posebno u interspecifičnim F1 hibridima, međutim ograničen je pristupom roditeljima i potomstvu, što nije moguće za mnoge vrste. Alternativa zasnovana na sličnim principima je spajanje gameta, koje koristi jednoćelijsko sekvenciranje gameta za informiranje o particioniranju čitanja u različite skupove haplotipova za naknadno sastavljanje (Campoy et al., 2020).

3.3 Pan i core genomi

Skup genoma često je ograničen na jednu jedinku iz vrste. Štoviše, skupovi genoma iz “blisko” povezanih vrsta (gdje loze mogu imati vrijeme divergencije od nekoliko miliona godina) često se koriste za mapiranje i kao zamjenske jedinice za de novo referentni skup genoma iz ciljnih vrsta. Međutim, često postoji velika varijacija među jedinkama u vrsti (Audano et al., 2019). Generiranje više de novo sklopova za vrstu, na primjer jedan po populaciji, lozi ili demi bolje bi uhvatilo genetske varijacije u vrsti, ali generiranje novog referentnog genoma za više jedinki često je skupo, a možda i proračunski zabranjeno. Glavna korist više sklopova je razlikovanje pan-i jezgra-genoma unutar vrste (slika 2a). Pan-genom predstavlja sve sekvence među svim sekvencama DNK koje se javljaju u vrsti, dok je jezgro-genom DNK koja se dijeli među svim sekvenciranim pojedincima. Na primjer, usporedba osam sklopova na razini kromosoma Arabidopsis thaliana pristupanja su otkrila jezgro-genom, zajednički svim pristupima,

24.000 gena, dok je pan-genom bio

135 Mb u dužinu i uključeno

30.000 gena (Jiao & Schneeberger, 2020), naglašavajući ogromnu količinu podataka o sekvenci, uključujući gene, koji su promašeni jednom referentnom skupu genoma. U genomu sojinog zrna u 26 pristupanja nedostajalo je najmanje 48.249 gena u barem jednom pristupanju, što je jednako približno 20% gena u jednom skupu koji je klasificiran kao nepotrebni ili privatni (Liu et al., 2020). Pan-genomi su trenutno dostupni samo za uzorne biljne vrste, ljude i neke bakterijske vrste (Bayer et al., 2020 Sherman & Salzberg, 2020). Značajan gubitak raznolikosti genoma i specifičnih genomskih regija u vrstama usjeva nakon pripitomljavanja i umjetne selekcije od divljih potomaka bio je jedan od glavnih pokretača za izgradnju pan-genoma, ali će pristupi vjerovatno naći sve veću primjenu u molekularnoj ekologiji, posebno tamo gdje noncore komponenta pan-genoma je značajna. Nedavno istraživanje mediteranske školjke otkrilo je da je više od 30% gena podložno promjenama prisutnosti/odsutnosti kada su procijenjeni pojedinci iz dvije populacije (Gerdol i sur., 2020.). Stvaranje pan-genoma najvjerojatnije će biti ograničeno cijenom i pristupom različitim uzorcima vrste (tj. Uzorkovanjem u cijelom rasponu). Postoje i sve manji povrati nakon povećanja broja sekvenciranih genoma, gdje u nekom trenutku, ovisno o raznolikosti, novi genomi dodaju samo minimalne nove informacije (vidi sliku 2b). Još jedno područje razvoja pan-genoma je pohranjivanje informacija o sastavljanju genoma u nelinearnom grafikonu genoma (Eizenga et al., 2020).

3.4 Ograničeni ulazni materijal (kvalitet i količina) može isključiti neke vrste iz dugo čitanog sekvenciranja

DNK velike molekularne mase (HMW) je zahtjev za tehnologije dugotrajnog i povezanog čitanja sekvenciranja i za mnoge pristupe skelama, pri čemu Hi-C optimalno zahtijeva netaknute ćelije za oporavak kromosoma. Dužina čitanja često je konačno određena dužinom DNK iz ekstrakcije (Li & Harkess, 2018). Stoga je HMW DNA veliko ograničenje za generiranje de novo sklopova genoma za vrste s ograničenim ulaznim materijalom, posebno s obzirom na kvalitetu. Razvijeno je nekoliko metoda za sekvenciranje genoma s malim količinama inputa (npr. PacBio Low DNK input), a visoko susjedni genomi su rezultat sekvenciranja jedne male individue (Kingan et al., 2019.). Međutim, metode optimizirane za male količine ulazne DNK i dalje se oslanjaju na DNK HMW, što možda nije moguće za mali podskup organizama. Na primjer, ugrožene vrste mogu biti ograničene na neinvazivno ili minimalno invazivno uzorkovanje (npr. uzorci fekalija, kože ili kose gdje kvalitet i količina DNK domaćina mogu biti niski) ili na postojeće muzejske uzorke koji vjerovatno nisu sačuvani s obzirom na sekvenciranje DNK (Carroll et al., 2018). Iako u takvim slučajevima nije moguće izvesti dugo čitanje sekvenciranja, čak i sklop zasnovan na podacima s kratkim čitanjem može pružiti pokrivanje razumnog udjela kodirajućih sekvenci (Colella et al., 2020).


NCBI na CSHL Biology of Genomes, 11. – 14., 2021

Osoblje NCBI-a će predstaviti virtuelne postere na sastanku Laboratorije za biologiju genoma Cold Spring Harbor, 11.-14. maja 2021. Posteri će pokrivati ​​sljedeće teme: 1) paket alata spreman za oblak (PGAP, RAPT i SKESA) za sastavljanje i označavanje prokariotskih genoma, 2) Skupovi podataka — novi skup usluga za preuzimanje sklopova i bilješki genoma, i 3) ažuriranja NCBI RefSeq napomene o eukariotskom genomu, i Genome Data Viewer (GDV). Više o sažecima pročitajte u nastavku.

Otvara se galerija virtualnih plakata Utorak, 11. maja u 9:00 sati. sa posvećenim vremenom za gledanje postera i diskusiju na 13:00 do 14:00. kroz Slack svaki dan. Galerija postera bit će otvorena cijelu konferenciju i bit će dostupna šest sedmica nakon toga.

Paket alata NCBI za prokariotske genome: kako RAPT, SKESA i PGAP mogu ubrzati vaše istraživanje

Thibaud-Nissen F, Agarwala R, Arndt D, Hlavina W, Li W, Lu S, Meric P, Souvorov A, Sweeney D, Wagner L, Yang, M

NCBI je razvio paket javno dostupnih alata za sastavljanje, označavanje i provjeru dodjeljivanja vrsta bakterijskih i arhealnih genoma. RAPT okuplja SKESA, efikasan de Bruijn -ov asembler grafikona za Illumina kratka čitanja i PGAP, cjevovod koji se koristi za označavanje RefSeq prokariotskih genoma. Nedavne promjene tijeka rada smanjile su vrijeme izvođenja PGAP -a i RAPT -a za pola, tako da korisnik sada može sastaviti genom iz sekvenciranja čitanja i označiti strukturu i funkciju gena na rezultirajućem sklopu za nekoliko minuta do nekoliko sati, koristeći jednu naredbu.

Docker slike za PGAP i RAPT dostupne su na dockerhub-u i mogu se izvoditi na lokalnom računalu, privatnom klasteru ili u oblaku, koristeći intuitivna sučelja komandne linije. Slike sadrže PGAP CWL tok rada, sve potrebne binarne datoteke (uključujući SKESA u slučaju RAPT -a) i cwltool, CWL referentnu implementaciju. Svi potrebni referentni podaci, uključujući razne ručno kurirane dokaze, grupirani su i distribuirani s PGAP -om i RAPT -om.

Dostupna je i posebna implementacija RAPT-a za korisnike Google Cloud Platforme koja koristi Google Life Sciences API. Sa jednom komandom iz Google Cloud Shell-a, GCP RAPT osigurava virtuelnu mašinu, preuzima Docker sliku i potrebne podatke, sastavlja, verifikuje taksonomski dodeljivanje, beleži genom, stavlja izlaz u željenu kantu i isključuje virtuelnu mašinu.

Konačno, predstavit ćemo pilot web uslugu za RAPT, čiji je cilj pomoći biolozima bez tehničkih vještina ili pristupa računarskim resursima da odgovore na njihova naučna pitanja i razumiju njihove potrebe za alatima i podacima za prokariotsku genomiku.

NCBI skupovi podataka: Dobijte željene podatke vezane za genom

VA Schneider, E Cox, PA Meric, JB Holmes i NA O'Leary

Za istraživače koji vrše genomske analize, NCBI je prepoznat kao jedna od istaknutih javnih arhivskih zbirki iz koje se mogu slobodno dohvatiti sekvence, skupovi, bilješke i metapodaci za organizme na drvetu života. Kako opseg i složenost podataka rastu, postaje sve važnije osigurati mehanizme pristupa koji će omogućiti istraživačima da efikasno i djelotvorno pronađu potrebne podatke. Nadalje, istraživačima je potrebna infrastruktura i podaci koji su u skladu sa FAIR principima (pronađivi, dostupni, interoperabilni, višekratni) kako bi se osigurala upotrebljivost podataka i kvalitet njihovih analiza. NCBI Datasets je novi resurs fokusiran na ove potrebe, posebno razvijen da bi se istraživačima olakšalo da dobiju podatke koje žele, kako bi ih mogli koristiti. Pokazat ćemo kako skupovi podataka nude pristup webu, komandnoj liniji i API pristupu genomu i sadržaju sekvenci povezanih s genima i metapodacima iz svih grana taksonomskog stabla. Pregledaćemo strukturu skupova podataka genoma koji uključuju genom, transkript i sekvencu proteina, beleške i izveštaj o metapodacima genoma formatiran u JSON linijama. Takođe ćemo predstaviti format podataka alat koji je obezbeđen za transformaciju JSON-linija u tabelarni izveštaj. Predstavit ćemo i druge pakete NCBI skupova podataka koji su također dostupni, uključujući gene i ortološke podatke, a onima koji proučavaju SARS-CoV-2, paket koji uključuje genomske, proteinske i CDS sekvence, bilješke i opsežan izvještaj o podacima za sve potpune SARS-CoV-2 genomi. Na kraju ćemo predstaviti Python i R biblioteke Datasets koje omogućavaju istraživačima pristup API -ima, olakšavajući njihovu upotrebu u tijekovima analize, te prateće bilježnice Jupyter i R koje su dostupne istraživačima da počnu koristiti ove alate. Kao resurs u aktivnom razvoju, podijelit ćemo najnovija poboljšanja i funkcije.

Označavanje genoma u NCBI RefSeq u eri sekvenciranja treće generacije

Terence D Murphy, Françoise Thibaud-Nissen

Napredak tehnologije sekvenciranja u posljednjoj deceniji doveo je do izobilja sklopova genoma za višećelijske eukariote. Mnoge vrste imaju nove, visokokvalitetne sklopove zasnovane na PacBio, Oxford Nanopore (ONT) ili drugim tehnologijama, zajedno s obilnim skupovima podataka RNA-seq, koje su generirali mnogi istraživači iz cijelog svijeta. Kako bi se povećala korisnost ovih genoma za istraživačku zajednicu, NCBI-jev projekt Referentne sekvence (RefSeq) pruža napomene genoma za preko 700 vrsta koje obuhvataju preko 350 kralježnjaka, 200 beskičmenjaka i 100 biljaka. NCBI-jev automatizirani protokol označavanja pruža brze, visokokvalitetne bilješke gena u mnogim svojtama, uz dosljednu obradu koja koristi komparativnim genomskim studijama. Skup bilješki tipično premašuje 97% potpunosti mjereno BUSCOv4, nadmašujući većinu drugih skupova podataka. Napomene su dostupne u NCBI-jevom Gene resursu, BLAST bazama podataka i Genome Data Viewer (GDV). Gene i GDV također pružaju pristup drugim genomskim informacijama, uključujući ortologe, podatke o ekspresiji RNA-seq i poravnanje cijelog genoma prema prethodnim verzijama sklopova ili sklopovima iz različitih sojeva. Ova prezentacija će istražiti lekcije koje smo naučili iz označavanja raznolike kolekcije genoma, uključujući utjecaje RNA-seq-a i kvalitete sklapanja, demonstrirati visoku kvalitetu označenih genskih skupova i dati pregled NCBI-jevih resursa. Napomene o eukariotskom genomu i stranice Genome Data Viewer pružaju više informacija.


Reference

Otto S P. Evolucijske posljedice poliploidije. Cell, 2007, 131: 452–462

Ohno S. Evolution by Gene Duplication. New York: Springer-Verlag, 1970

Holandija P W H, Garcia-Fernàndez J, Williams N A, et al. Duplikacije gena i porijeklo razvoja kralježnjaka. Razvoj (Dodatak), 1994, 125–133

Meyer A, Van de Peer Y. Od 2R do 3R: dokazi o dupliciranju genoma specifičnog za ribu (FSGD). Bioessays, 2005, 27: 937–945

Dehal P, Boore J L. Dva kruga dupliciranja cijelog genoma kod predaka kičmenjaka. PLoS Biol, 2005, 3: 1700–1708

Blomme T, Vandepoele K, De Bodt S, et al. Dobitak i gubitak gena tokom 600 miliona godina evolucije kralježnjaka. Genom Biol, 2006, 7: R43

Zaljubljeni A, Force A, Yan Y L, et al. Zebrafish hox clusters and vertebrate genome evolution. Science, 1998, 282: 1711–1714

Taylor J S, Van de Peer Y, Braasch I, et al. Comparative genomics provides evidence for an ancient genome duplication event in fish. Philos Trans R Soc, 2001a, 356: 1661–1679

Volff J N. Genome evolution and biodiversity in teleost fish. Heredity, 2005, 94: 280–294

Soltis D E, Soltis P S, Tate J A. Advances in the study of polyploidy since plant speciation. New Phytol, 2003, 161: 173–191

Comai L. The advantages and disadvantages of being polyploid. Nat Rev Genet, 2005, 6: 836–845

Kassahn K S, Dang V T, Wilkins S J, et al. Evolution of gene function and regulatory control after whole-genome duplication: comparative analyses in vertebrates. Genome Res, 2009, 19: 1404–1418

Soltis D E, Soltis P S. Molecular data and the dynamic nature of polyploidy. Crit Rev Plant Sci, 1993, 12: 243–273

Grant V. Plant Speciation, 2nd ed. New York: Columbia University Press, 1981

Ahuja M R, Neale D B. Evolution of genome size in conifers. Silvae Genet, 2005, 54: 126–137

Hair J B. The chromosomes of the Cupressaceae. I. Tetraclineae and Actinostrobeae (Callitroideae). New Zeal J Bot, 1968, 6: 277–284

Gates R R. The stature and chromosomes of Oenothera gigas De Vries. Arch F Zellforsch, 1909, 3: 525–552

Goldblatt P. Polyploidy in Angiosperms: Monocotyledons. In: Lewis W H, ed. Polyploidy: Biological Relevance. New York: Plenum Press, 1980. 219–239

Lewis W H. Polyploidy in Angiosperms: Dicotyledons. In: Lewis W H, ed. Polyploidy: Biological Relevance. New York: Plenum Press, 1980. 241–268

Masterson J. Stomatal size in fossil plants: evidence for polyploidy in majority of angiosperms. Science, 1994, 264: 421–423

Bowers J E, Chapman B A, Rong J K, et al. Unravelling angiosperm genome evolution by phylogenetic analysis of chromosomal duplication events. Nature, 2003, 422: 433–438

Soltis D E, Albert V A, Leebens-Mack J, et al. Polyploidy and angiosperm diversification. Am J Bot, 2009, 96: 336–348

Veron A S, Kaufmann K, Bornberg-Bauer E. Evidence of interaction network evolution by whole-genome duplications: a case study in MADS-box proteins. Mol Biol Evol, 2007, 24: 670–678

Albert V A, Soltis D E, Carlson J E, et al. Floral gene resources from basal angiosperms for comparative genomics research. BMC Plant Biol, 2005, 5: 5–16

Cui L, Wall P K, Leebens-Mack J, et al. Widespread genome duplications throughout the history of flowering plants. Genome Res, 2006, 16: 738–749

Zhang F W, Wang Y R. Progress of polyploidy breeding technology applied in medical plants scale (in Chinese). Guiding J TCM, 2006, 12: 83–85

Paterson A H, Bowers J, Burow M, et al. Comparative genomics of plant chromosomes. Plant Cell, 2000, 12: 1523–1539

Severin A J, Cannon S B, Graham M M, et al. Changes in twelve homoeologous genomic regions in soybean following three rounds of polyploidy. Plant Cell, 2011, 23: 3129–3136

Jaillon O, Aury J M, Noel B, et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature, 2007, 449: 463–467

Ming R, Hou S, Feng Y, et al. The draft genome of the transgenic tropical fruit tree papaya (Carica papaya Linnaeus). Nature, 2008, 452: 991–996

Otto S P, Whitton J. Polyploid incidence and evolution. Annu Rev Genet, 2000, 34: 401–437

Liu Z D. Yichuanxue (in Chinese). Beijing: Higher Education Press, 1991

Yang Y G, Zhuang Y, Chen L Z, et al. Vegetable polyploid and polyploidy breeding (in Chinese). Acta Agricult Univ Jiangxi, 2006, 28: 534–538

Hilu K W. Polyploidy and the evolution of domesticated plants. Am J Bot, 1993, 80: 1494–1499

Fedorov A. Chromosome Numbers of Flowering Plants. Leningrad: Acad Sci USSR Komarov Botanical Institute, 1969

Dai S L, Wang W K, Huang J P. Advances of researches on phylogeny of Dendranthema and origin of chrysanthemum (in Chinese). J Beijing Forest Univ, 2002, 24: 230–234

Jin X X, Zhang Q X. Advances in the studies of breeding Primula (in Chinese). Chin Bull Bot, 2005, 22: 738–745

Gregory T R, Mable B K. Polyploidy in Animals. In: Gregory T R, ed. The Evolution of the Genome. San Diego: Elsevier, 2005. 427–517

Wu M. Genetics and evolution of animal polyploid (in Chinese). Chin J Zool, 1988, 23: 48–51

Chen D W, Daoye M Y. Chromosomes and systematic classification of molluscs. Chin J Zool, 1988, 23: 48–51

Ye M W. The polyploidy phenomenon and formation in animals and plants (in Chinese). Bull Biol, 1998, 33: 21–23

Li S W. Polyploid insects (in Chinese). Entomol Knowledge, 2002, 39: 147–151

Naruse K, Tanaka M, Mita K, et al. A medaka gene map: the trace of ancestral vertebrate proto-chromosomes revealed by comparative gene mapping. Genome Res, 2004, 14: 820–828

Woods I G, Wilson C, Friedlander B, et al. The zebrafish gene map defines ancestral vertebrate chromosomes. Genome Res, 2005, 15: 1307–1314

Gui J F, Zhou L. Genetic basis and breeding application of clonal diversity and dual reproduction modes in polyploid Carassius auratus gibelio. Sci China Life Sci, 2010, 53: 409–415

Zhou L, Gui J F. Karyotypic diversity in polyploid gibel carp, Carassius auratus gibelio bloch. Genetica, 2002, 115: 223–232

Xiao J, Zou T M, Chen Y B, et al. Coexistence of diploid, triploid and tetraploid crucian carp (Carassius auratus) in natural waters. BMC Genet, 2011, 12: 20

Luo J R. Polyploid fishes and fish polyploidy breeding (in Chinese). Pearl River Fisheries, 1991, 17: 69–74

Lampert K P, Schartl M. The origin and evolution of a unisexual hybrid: Poecilia formosa. Philos Trans R Soc Lond B Biol Sci, 2008, 363: 2901–2909

Zan R G. The polyploids in fish and their roles in fish evolution (in Chinese). J Yunnan Univ, 1985, 7: 235–243

Abbas K, Li M Y, Wang W M, et al. First record of the natural occurrence of hexaploids loach Misgurnus anguillicaudatus in Hubei Province, China. J Fish Biol, 2009, 75: 435–441

Ráb P, Rábová M, Bohlen J, et al. Genetic differentiation of the two hybrid diploid-polyploid complexes of loaches, genus Cobitis (Cobitidae) involving C. taenia, C. elongatoides i C. spp. in the Czech Republic: karyotypes and cytogenetic diversity. Folia Zool, 2000, 49: S55–S66

Boroň A, Kotusz J. The preliminary data on diploid-polyploid complexes of the genus Cobitis in the Odra River basin, Poland (Pisces, Cobitidae). Folia Zool, 2000, 49: S79–S84

Li S S. Amphibians’s chromosomes and their evolution (in Chinese). Chin J Zool, 1991, 26: 47–52

Li S S. Parthenogenesis in reptiles (in Chinese). Chin J Zool, 1992, 27: 41–44

Li S S. Vertebrate’s polyploid (in Chinese). Chin J Zool, 1980, 2: 52–54

Ramsey J, Schemske D W. Pathways, mechanisms, and rates of polyploid formation in flowering plants. Annu Rev Ecol Syst, 1998, 29: 467–501

Newton W C F, Pellew C. Primula kewensis and its derivatives. J Genet, 1929, 20: 405–467

Liu S J, Qin Q B, Xiao J, et al. The formation of the polyploid hybrids from different subfamily fish crossing and its evolutionary significance. Genetics, 2007, 176: 1023–1034

Liu S J. Distant hybridization leads to different ploidy fishes. Sci China Life Sci, 2010, 53: 416–425

Karpechenko G D. The production of polyploid gametes in hybrids. Hereditas, 1927, 9: 349–368

Liu S J, Liu Y, Zhou G J, et al. The formation of tetraploid stocks of red crucian carp × common carp hybrids as an effect of interspecific hybridization. Aquaculture, 2001, 192: 171–186

Zhang C, Sun Y D, Liu S J, et al. Evidence of the unreduced diploid eggs generated from the diploid gynogenetic progeny of allotetraploid hybrids (in Chinese). Acta Genet Sin, 2005, 32: 136–144

Ullah Z, Lee C Y, DePamphilis M L. Cip/Kip cyclin-dependent protein kinase inhibitors and the road to polyploidy. Cell Div, 2009, 4: 10

Bretagnolle F, Thompson J D. Gametes with the somatic chromosome number: mechanisms of their formation and role in the evolution of autopolyploid plants. New phytol, 1995, 129: 1–22

Werner J E, Peloquin S J. Occurrence and mechanisms of 2n egg formation in 2x potato. Genome, 1991, 34: 975–982

Seehausen O. Hybridization and adaptive radiation. Trends Ecol Evol, 2004, 19: 198–207

Mallet J. Hybridization as an invasion of the genome. Trends Ecol Evol, 2005, 20: 229–237

Mallet J. Hybrid speciation. Nature, 2007, 446: 279–283

Yu X J, Zhou T, Li Y C. Chromosomes of Chinese Fresh-water Fishes (in Chinese). Beijing: Science Press, 1989

Meyer A, Salzburger W, Schartl M. Hybrid origin of a swordtail species (Teleostei: Xiphophorus clemenciae) driven by sexual selection. Mol Ecol, 2006, 15: 721–730

Saitoh K, Chen W J, Mayden R L. Extensive hybridization and tetrapolyploidy in spined loach fish. Mol Phylogenet Evol, 2010, 56: 1001–1010

Harlan J R, deWet J M J. On Ö. Winge and a prayer: the origins of polyploidy. Bot Rev, 1975, 41: 361–390

Belling J. The origin of chromosomal mutations in Uvularia. J Genet, 1925, 15: 245–266

McHale N A. Environmental induction of high frequency 2n pollen formation in diploid Solanum. Can J Genet Cytol, 1983, 25: 609–615

Mable B K. ’Why polyploidy is rarer in animals than in plants’: myths and mechanisms. Biol J Linn Soc, 2004, 82: 453–466

Comai L. Genetic and epigenetic interactions in allopolyploid plants. Plant Mol Biol, 2000, 43: 387–399

Chen Z J, Ni Z F. Mechanisms of genomic rearrangements and gene expression changes in plant polyploids. Bioessays, 2006, 28: 240–252

Song K, Lu P, Tang K, et al. Rapid genome change in synthetic polyploids of Brassica and its implications for polyploid evolution. Proc Natl Acad Sci USA, 1995, 92: 7719–7723

Kenton A, Parokonny A S, Gleba Y Y, et al. Characterization of the Nicotiana tabacum L. Genome by molecular cytogenetics. Mol Gen Genet, 1993, 240: 159–169

Jellen E N, Gill B S, Cox T S. Genomic in situ hybridization differentiates between A/D-and C-genome chromatin and detects intergenomic translocations in polyploid oat species (genus Avena). Genome, 1994, 37: 613–618

Kellogg E A. What happens to genes in duplicated genomes. Proc Natl Acad Sci USA, 2003, 100: 4369–4371

Se’mon M, Wolfe K H. Preferential subfunctionalization of slow-evolving genes after allopolyploidization in Xenopus laevis. Proc Natl Acad Sci USA, 2008, 105: 8333–8338

Lee H S, Chen Z J. Protein-coding genes are epigenetically regulated in Arabidopsis polyploids. Proc Natl Acad Sci USA, 2001, 98: 6753–6758

Chen Z J. Genetic and epigenetic mechanisms for gene expression and phenotypic variation in plant polyploids. Annu Rev Plant Biol, 2007, 58: 377–406

Liu B, Wendel J F. Epigenetic phenomena and the evolution of plant allopolyploids. Mol Phylogenet Evol, 2003, 29: 365–379

Madlung A, Masuelli R W, Watson B, et al. Remodeling of DNA methylation and phenotypic and transcriptional changes in synthetic Arabidopsis allotetraploids. Plant Physiol, 2002, 129: 733–746

Fedoroff N. Transposons and genome evolution in plants. Proc Natl Acad Sci USA, 2000, 97: 7002–7007

Doyle J J, Flagel L E, Paterson A H, et al. Evolutionary genetics of genome merger and doubling in plants. Annu Rev Genet, 2008, 42: 443–461

Liu B, Wendel J F. Non-mendelian phenomena in allopolyploid genome evolution. Curr Genomics, 2002, 3: 489–506

Ma X F, Gustafson J P. Genome evolution of allopolyploids: a process of cytological and genetic diploidization. Cytogenet Genome Res, 2005, 109: 236–249

De Bodt S, Maere S, Van de Peer Y. Genome duplication and the origin of angiosperms. Trends Ecol Evol, 2005, 20: 591–597

Ma H Y, Zhang J F, Li Z D. Research advances on plant polyploidy breeding techniques (in Chinese). Protect Forest Sci Technol, 2008, 1: 43–46

Wang T K, Zhang J Z, Qi Y S, et al. Advances on polyploid breeding of fruit crops in China (in Chinese). J Fruit Sci, 2004, 21: 592–597

Shun M H, Zhang S N. The application of polyploidy breeding in horticultural crops (in Chinese). Jiangsu Agricult Sci, 2004, 1: 68–72

Zhang X Y, Liu J F, Wang L P. Polyploidy breeding and its application research progress of medicinal plants (in Chinese). J Jilin Normal Univ (Nat Sci Ed), 2009, 4: 128–131

Yuan J M, Dang X M, Zhan Y F. Advances on polyploid breeding in watermelon (in Chinese). Chin J Tropical Agricult, 2009, 29: 65–70

Shen A L, Yao W Z. The proceeding on triploid breeding of aquatic animals (in Chinese). Reserv Fish, 2004, 24: 1–3

Liu Y, Liu S J, Sun Y D, et al. Polyploid hybrids of crucian carp× common carp (in Chinese). Rev China Agricult Sci Technol, 2003, 5: 3–6

Wu P. Research progress of fish polyploid breeding in China (in Chinese). J Shanghai Fish Univ, 2005, 14: 72–78

Hu L L, Li J E. The review of fish polyploid breeding research(in Chinese). Fish Sci Technol, 2009, 7–10

Yuan B J, Jiang N C, Lu J P, et al. A review of decapod crustacean multiploid breeding (in Chinese). Donghai Marine Sci, 1998, 16: 64–68

Wang Z P, Li K J, Yu R H, et al. Progress of tetraploid breeding in mollusks (in Chinese). J Ocean Univ China, 2004, 34: 195–200

Song L M, Yang Y, Wang W M, et al. Induction of triploidy in yellow catfish Pelteobagrus fulvidraco by heat shock (in Chinese). Fish Sci, 2010, 29: 352–355

Gui J F, Liang S C, Sun J M, et al. Studies on genome manipulation in fish I. Induction of triploid transparent colored crucian carp (Carassius auratus transparent colored variety) by hydrostatic pressure (in Chinese). Acta Hydrobiol Sin, 1990, 14: 336–344

Wu W X, Li C W, Liu G A, et al. Studies on tetraploid hybrid between red common carp (Cyprinus carpio) and grass carp (Ctenopharyngodon idellus) and its backcross triploid (in Chinese). Acta Hydrobiol Sin, 1988, 12: 355–363

Gui J F, Liang S C, Zhu L F, et al. Discovery and breeding potential of compound tetraploid allogynogenetic silver crucian carp in artificial population (in Chinese). Chin Sci Bull, 1992, 37: 646–648

Wu C, Ye Y, Chen R, et al. An artificial multiple triploid carp and its biological characteristics. Aquaculture, 1993, 111: 255–262

Luo K K, Xiao J, Liu S J, et al. Massive production of all-female diploids and triploids in the crucian carp. Int J Biol Sci, 2011, 7: 487–495

Hu W, Zhu Z Y. Integration mechanisms of transgenes and population fitness of GH transgenic fish. Sci China Life Sci, 2010, 53: 401–408

Hu W, Wang Y P, Zhu Z Y. Progress in the evaluation of transgenic fish for possible ecological risk and its containment strategies. Sci China Life Sci, 2007, 50: 573–579

Yu F, Xiao J, Liang X Y, et al. Rapid growth and sterility of growth hormone gene transgenic triploid carp. Chin Sci Bull, 2011, 56: 1679–1684

Qin Q B, He W G, Liu S J, et al. Analysis of 5S rDNA organization and variation in polyploid hybrids from crosses of different fish subfamilies. J Exp Zool (Mol Dev Evol), 2010, 314: 403–411


Sequencing the genomes of polyploid organisms - Biology

Baza podataka koja pruža informacije o strukturi sastavljenih genoma, nazivima sklopova i drugim metapodacima, statističkim izvještajima i vezama do podataka o genomskim nizovima.

Zbirka studija genomike, funkcionalne genomike i genetike i veze sa njihovim rezultujućim skupovima podataka. Ovaj izvor opisuje opseg projekta, materijal i ciljeve te pruža mehanizam za dohvaćanje skupova podataka koje je često teško pronaći zbog nedosljednih napomena, više nezavisnih podnesaka i raznolike prirode različitih tipova podataka koji su često pohranjeni u različitim bazama podataka.

The dbVar database has been developed to archive information associated with large scale genomic variation, including large insertions, deletions, translocations and inversions. In addition to archiving variation discovery, dbVar also stores associations of defined variants with phenotype information.

Contains sequence and map data from the whole genomes of over 1000 organisms. The genomes represent both completely sequenced organisms and those for which sequencing is in progress. All three main domains of life (bacteria, archaea, and eukaryota) are represented, as well as many viruses, phages, viroids, plasmids, and organelles.

The Genome Reference Consortium (GRC) maintains responsibility for the human and mouse reference genomes. Members consist of The Genome Center at Washington University, the Wellcome Trust Sanger Institute, the European Bioinformatics Institute (EBI) and the National Center for Biotechnology Information (NCBI). The GRC works to correct misrepresented loci and to close remaining assembly gaps. In addition, the GRC seeks to provide alternate assemblies for complex or structurally variant genomic loci. At the GRC website (http://www.genomereference.org), the public can view genomic regions currently under review, report genome-related problems and contact the GRC.

A database of known interactions of HIV-1 proteins with proteins from human hosts. It provides annotated bibliographies of published reports of protein interactions, with links to the corresponding PubMed records and sequence data.

Kompilacija podataka iz NIAID projekta za sekvencioniranje genoma influence i GenBank. On pruža alate za analizu sekvence gripa, bilješke i dostavljanje GenBank -u. Ovaj izvor takođe ima veze do drugih izvora sekvence gripa, publikacija i opštih informacija o virusima gripa.

Projekt koji uključuje prikupljanje i analizu genomskih sekvenci bakterijskih patogena koji potječu iz izolata hrane, okoliša i pacijenata. Trenutno se automatizirani cjevovod grupiše i identificira sekvence koje prvenstveno obezbjeđuju laboratorije javnog zdravlja kako bi se pomoglo u istraživanju izbijanja bolesti koje se prenose hranom i otkrile potencijalne izvore kontaminacije hrane.

Kolekcija nukleotidnih sekvenci iz nekoliko izvora, uključujući GenBank, RefSeq, bazu podataka Third Party Annotation (TPA) i PDB. Pretraživanje baze podataka nukleotida će dati dostupne rezultate iz svake od njenih komponentnih baza podataka.

Baza podataka o srodnim sekvencama DNK koje potiču iz komparativnih studija: filogenetskih, populacijskih, ekoloških i, u manjoj mjeri, mutacijskih. Svaki zapis u bazi podataka je skup DNK sekvenci. Na primjer, populacijski skup pruža informacije o genetskim varijacijama unutar organizma, dok filogenetski skup može sadržavati sekvence i njihovo poravnanje, jednog gena dobivenog iz nekoliko srodnih organizama.

Javni registar reagensa nukleinske kiseline dizajniran za upotrebu u širokom spektru biomedicinskih istraživanja, zajedno s informacijama o distributerima reagensa, učinkovitosti sonde i sličnostima izračunatih sekvenci.

A collection of resources specifically designed to support the research of retroviruses, including a genotyping tool that uses the BLAST algorithm to identify the genotype of a query sequence an alignment tool for global alignment of multiple sequences an HIV-1 automatic sequence annotation tool and annotated maps of numerous retroviruses viewable in GenBank, FASTA, and graphic formats, with links to associated sequence records.

A summary of data for the SARS coronavirus (CoV), including links to the most recent sequence data and publications, links to other SARS related resources, and a pre-computed alignment of genome sequences from various isolates.

Arhiva čitanja sekvence (SRA) pohranjuje podatke o sekvenciranju iz sljedeće generacije platformi za sekvenciranje, uključujući Roche 454 GS System®, Illumina Genome Analyzer®, Life Technologies AB SOLiD System®, Helicos Biosciences Heliscope®, Complete Genomics® i Pacific Biosciences SMRT® .

Skladište hromatograma (tragova) sekvenci DNK, baznih poziva i procena kvaliteta za čitanje u jednom prolazu iz različitih velikih projekata sekvenciranja.

A wide range of resources, including a brief summary of the biology of viruses, links to viral genome sequences in Entrez Genome, and information about viral Reference Sequences, a collection of reference sequences for thousands of viral genomes.

An extension of the Influenza Virus Resource to other organisms, providing an interface to download sequence sets of selected viruses, analysis tools, including virus-specific BLAST pages, and genome annotation pipelines.

Downloads

This site contains genome sequence and mapping data for organisms in Entrez Genome. The data are organized in directories for single species or groups of species. Mapping data are collected in the directory MapView and are organized by species. See the README file in the root directory and the README files in the species subdirectories for detailed information.

Contains directories for each genome that include available mapping data for current and previous builds of that genome.

Ova stranica sadrži sve zapise sekvenci nukleotida i proteina u zbirci Referentna sekvenca (RefSeq). Direktorij "" release "" sadrži najnovije izdanje kompletne zbirke, dok su podaci o odabranim organizmima (poput ljudi, miševa i štakora) dostupni u zasebnim direktorijima. Podaci su dostupni u FASTA i flat formatima datoteka. Za detalje pogledajte README datoteku.

This site contains SKY-CGH data in ASN.1, XML and EasySKYCGH formats. See the skycghreadme.txt file for more information.

Ova web stranica sadrži podatke o sekvenciranju nove generacije organizirane prema prijavljenom projektu sekvenciranja.

Ova stranica sadrži podatke o hromatogramu u tragovima organizirane po vrstama. Podaci uključuju hromatogram, ocjene kvalitete, FASTA sekvence iz automatskih osnovnih poziva i druge pomoćne informacije u tekstu razgraničenom tabulatorima, kao i XML formate. Za detalje pogledajte README datoteku.

Ova stranica sadrži podatke o sekvencama čitavog genoma organizirane 4-cifrenom šifrom projekta. Podaci uključuju GenBank i GenPept ravne datoteke, ocjene kvaliteta i zbirnu statistiku. Pogledajte datoteku README.genbank.wgs za više informacija.

Podnesci

Mrežni obrazac koji pruža sučelje za istraživače, konzorcijume i organizacije za registraciju njihovih bioprojekata. Ovo služi kao polazna osnova za podnošenje genomskih i genetskih podataka za studiju. Podatke nije potrebno dostavljati u vrijeme registracije BioProject -a.

Program komandne linije koji automatizuje kreiranje zapisa sekvenci za podnošenje GenBank-u koristeći mnoge iste funkcije kao i Sequin. Koristi se prvenstveno za podnošenje kompletnih genoma i velikih serija sekvenci.

Ova veza opisuje kako podnosioci SRA podataka mogu dobiti sigurnu NCBI FTP stranicu za svoje podatke, a također opisuje dozvoljene formate podataka i strukture direktorija.

Jedinstvena ulazna točka za podnositelje da se povežu i pronađu informacije o svim procesima podnošenja podataka u NCBI. Trenutno ovo služi kao sučelje za registraciju BioProjekata i BioUzoraka i dostavljanje podataka za WGS i GTR. Planiraju se buduće dopune ove stranice.

Ova veza opisuje kako podnositelji podataka praćenja mogu dobiti sigurnu NCBI FTP stranicu za svoje podatke, a također opisuje i dopuštene formate podataka i strukture direktorija.

Tools

An interactive graphical viewer that allows users to explore variant calls, genotype calls and supporting evidence (such as aligned sequence reads) that have been produced by the 1000 Genomes Project.

Performs a BLAST search for similar sequences from selected complete eukaryotic and prokaryotic genomes.

Performs a BLAST search of the genomic sequences in the RefSeqGene/LRG set. The default display provides ready navigation to review alignments in the Graphics display.

Ovaj alat upoređuje nukleotidne ili proteinske sekvence sa bazama podataka genomskih sekvenci i izračunava statističku značajnost podudaranja pomoću algoritma Basic Local Alignment Search Tool (BLAST).

A genome browser for interactive navigation of eukaryotic RefSeq genome assemblies with comprehensive inspection of gene, expression, variation and other annotations. GDV offers easy-to-load analytical track pre-configurations, a menu of data tracks for easy display and customization, and supports upload and analysis of user data. This browser also enables the production of displays for publishing.

An online tool that assists in the production of journal quality figures of annotations on an ideogram or sequence representation of an assembly.

NCBI-jev Remap alat omogućava korisnicima da projektuju podatke o anotacijama i konvertuju lokacije karakteristika iz jednog genomskog sklopa u drugi ili u RefSeqGene sekvence kroz analizu baze po osnovu. Predviđene su opcije za podešavanje strogosti ponovnog mapiranja, a zbirni rezultati se prikazuju na web stranici. Potpuni rezultati se mogu preuzeti za pregled u NCBI-jevom grafičkom pregledniku Genome Workbench, a podaci o napomenama za remapirane karakteristike, kao i zbirni podaci, takođe su dostupni za preuzimanje.

Integrirana aplikacija za pregled i analizu podataka o sekvencama. Pomoću Genome Workbench -a možete pregledati podatke u javno dostupnim bazama podataka o redoslijedu u NCBI -ju i pomiješati te podatke sa svojim podacima.

Supports finding human phenotype/genotype relationships with queries by phenotype, chromosome location, gene, and SNP identifiers. Currently includes information from dbGaP, the NHGRI GWAS Catalog, and GTeX. Displays results on the genome, on sequence, or in tables for download.

Uslužni program za izračunavanje poravnanja proteina prema sekvenci genomskih nukleotida. Zasnovan je na varijaciji Needleman Wunsch algoritma za globalno poravnanje i posebno obračunava introne i signale spajanja. Zahvaljujući ovom algoritmu, ProSplign je precizan u određivanju mjesta spajanja i tolerantan je na greške u sekvenciranju.

Sequence Cytogenetic Conversion Service An online tool that converts sequence and cytogenetic coordinates for human, rat, mouse and fruit fly genomic assemblies. Sequence Viewer

Omogućuje konfigurabilni grafički prikaz nukleotidne ili proteinske sekvence i značajki koje su označene tom sekvencom. Osim za upotrebu na stranicama baze podataka NCBI sekvence, ovaj preglednik je dostupan i kao ugrađena komponenta web stranice. Detaljna dokumentacija uključujući API Referentni vodič dostupna je za programere koji žele da ugrade preglednik u svoje stranice.

Uslužni program za računanje poravnanja cDNA prema Genomskoj sekvenci. Zasnovan je na varijaciji Needleman-Wunsch algoritma za globalno poravnanje i posebno obračunava introne i signale spajanja. Zahvaljujući ovom algoritmu, Splign je precizan u određivanju mjesta spajanja i tolerantan je na greške u sekvenciranju.

Variation Viewer A genomic browser to search and view genomic variations listed in dbSNP, dbVar, and ClinVar databases. Searches can be performed using chromosomal location, gene symbol, phenotype, or variant IDs from dbSNP and dbVar. The browser enables exploration of results in a dynamic graphical sequence viewer with annotated tables of variations. Viral Genotyping Tool

This tool helps identify the genotype of a viral sequence. A window is slid along the query sequence and each window is compared by BLAST to each of the reference sequences for a particular virus.


NHGRI Targets 12 More Organisms for Genome Sequencing

BETHESDA, Md., Tues., Mar. 1, 2005 - The National Human Genome Research Institute (NHGRI), one of the National Institutes of Health (NIH), announced today that the Large-Scale Sequencing Research Network will begin sequencing 12 more strategically selected organisms, including the marmoset, a skate and several important insects, as part of its ongoing effort to expand understanding of the human genome.

The National Advisory Council for Human Genome Research, which is a federally chartered committee that advises NHGRI on program priorities and goals, recently approved a comprehensive plan that identified two groups of new sequencing targets on the basis of their collective scientific merits.

"Our sequencing strategy continues to focus on identifying the sets of organisms with the greatest potential to fill crucial gaps in biomedical knowledge," said Mark S. Guyer, Ph.D., director of NHGRI's Division of Extramural Research. "The most effective approach we currently have to identify the essential functional and structural components of the human genome is to compare it with the genomes of other organisms."

Two of the sequencing projects are aimed at gaining new insights into model organisms utilized in research on drug development and disease susceptibility. They are: sequencing the genome of a fellow primate, the marmoset (Callithrix jacchus) and identification of genetic variations (in the form of single nucleotide polymorphisms) in eight strains of rats.

The marmoset is a key model organism used in neurobiological studies of multiple sclerosis, Parkinson's disease and Huntington's disease. The marmoset is also an important model for research into infectious disease and pharmacology.

The marmoset was chosen also because of its unique position on the evolutionary tree, one step further removed from humans than other non-human primates already being sequenced, such as the chimpanzee (Pan troglodytes), the rhesus macaque (Macaca mulatta) and orangutan (Pongo pygmaeus). Obtaining the marmoset genome sequence will provide a powerful tool to illuminate the similarities and differences among these primate genomes.

The second project chosen for its considerable medical relevance to humans will identify 280,000 single nucleotide polymorphisms, known as "SNPs," in the genomes of eight different strains of laboratory rats. SNPs can be used as markers to zero in on genetic variations that may affect an individual's risk of developing common, complex illnesses such as heart diseases, diabetes and cancer. Building a catalog of rat SNPs will assist researchers trying to find genetic variations associated with common, complex diseases in rats, which can then be used to help identify similar genetic variations that may be involved in human disease.

The eight rat strains selected are the PVG strain, commonly used as a healthy control in studies the F344 strain, used in toxicological and pharmacological studies the SS strain, used for cardiovascular disease studies the LEW strain, often used in studies of transplants and immune response the BB strain, used in studies of diabetes the FHH strain, also used for cardiovascular studies the DA strain, used for studies of arthritis and cancer and the SHR strain, used in studies of hypertension.

"The overriding goal of sequencing the genomes of a diverse set of organisms is to understand the biological processes at work in human health and illness," said NHGRI Director Francis S. Collins, M.D., Ph.D. "It is also gratifying to know that these tools, freely available to the entire biomedical research community, can be used in other scientific fields to further improve animal and human welfare."

Another set of 11 non-mammalian organisms were strategically chosen, each representing a position on the evolutionary timeline marked by important innovations in animal anatomy, physiology, development or behavior. The organisms are: a skate (Raja erinacea) a sea slug (Aplysia californica) a disease-carrying insect (Rhodnius prolixus) a pea aphid (Acyrthosiphon pisum) a wasp (Nasonia vitripennis) and two related insect species (Nasonia giraulti i Nasonia longicornis) a free-living soil amoeba (Acanthamoeba castellanii) and three fungi (Schizosaccharomyces octosporus, Schizosaccharomyces japonicus, Batrachochytridium dendrobatidis).

It has been shown that most sequences of the human genome originated long before humans themselves. Consequently, scientists will use the genome sequences of the 11 non-mammalian animals to learn more about how, when and why the human genome came to be composed of certain DNA sequences, as well as to gain new insights into organization of genomes. In addition, many of the organisms can shed light on human disease.

For instance, the skate (related to many species of shark and cartilaginous fish) was chosen because it belongs to the first group of primitive vertebrates that developed jaws, an important step in vertebrate evolution. Other innovations in this group of animals include an adaptive immune system similar to that of humans, a closed and pressurized circulatory system, and myelination of the nervous system. Understanding these systems of the skate at a genetic level will help scientists identify the minimum set of genes that create a nervous system or develop a jaw, possibly illustrating how these systems have evolved in humans, and how they sometimes go wrong.


Aplysia (Aplysia californica) is a sea slug that has been a very useful model in studying learning and memory in humans. Aplysia have very large neurons which can be manipulated and studied easily by researchers. In 2000, Eric Kandel, M.D., of Columbia University in New York, shared the Nobel Prize in Physiology or Medicine for his work elucidating how memories are formed in the human brain using Aplysia as a model.

The disease-carrying insect, Rhodnius prolixus, spreads Chagas' disease, caused by the parasite Trypanosoma cruzi,which is carried by the insect. Chagas' disease is prominent in Latin America, affecting about 20 million people in South America alone and killing 50,000 of them a year. Having the genome sequence of Rhodnius prolixus presents an opportunity for experts from the United States, Canada and Latin America to collaborate on understanding this widespread infectious disease.

The pea aphid (Acyrthosiphon pisum) is an insect which causes hundreds of millions of dollars of crop damage each year. The pea aphid is a model for studying rapid adaptation because this species is exceptionally able at adapting to and resisting many pesticides. Understanding this resistance at a molecular level can lead to safer and more effective pesticides and improve human nutrition. The genome of the pea aphid, used extensively as an experimental model, will be a valuable comparison with other insects, such as the closely related insect, Rhodnius prolixus.

Another insect, the parasitoid wasp Nasonia vitripennis, is a natural enemy of houseflies, and its relatives are natural enemies of ticks, mites, roaches and other arthropods. It is the genetic model for parasitoids, which lay their eggs on and kill arthropods, thus controlling pest populations. In the United States, the use of parasitoid wasps in agriculture as a biological control of crop damaging insects saves approximately $20 billion annually. The wasp will serve as a good comparison for the honey bee genome, which has been sequenced already. Two related wasp species, Nasonia giraulti i Nasonia longicornis, will be sequenced at less dense coverage to aid in the comparative studies.

Sequencing efforts will be carried out by the five centers in the NHGRI-supported Large-Scale Sequencing Research Network: Agencourt Bioscience Corp., Beverly, Mass. Baylor College of Medicine, Houston the Broad Institute of MIT and Harvard, Cambridge, Mass. The J. Craig Venter Science Institute, Rockville, Md. and Washington University School of Medicine, St. Louis. Assignment of each organism to a specific center or centers will be determined at a later date.

NHGRI's selection process begins with two working groups comprised of experts from across the research community. Each of the working groups is responsible for developing a proposal for a set of genomes to sequence that would advance knowledge in one of two important scientific areas: understanding the human genome and understanding the evolutionary biology of genomes. A coordinating committee then reviews the working groups' proposals, helping to fine-tune the suggestions and integrate them into an overarching set of scientific priorities. The recommendations of the coordinating committee are then reviewed and approved by NHGRI's advisory council, which in turn forwards its recommendations regarding sequencing strategy to NHGRI leadership.

The genomes of a number of organisms have been or are being sequenced by the large-scale sequencing capacity developed by the Human Genome Project. These include the dog, the mouse, the rat, the chicken, the honey bee, two fruit flies, the sea urchin, two puffer fish, two sea squirts, two roundworms, several fungi, baker's yeast and many prokaryotes (bacteria and archaea) including Escherichia coli. Additional organisms already in the NHGRI sequencing pipeline are: the macaque, the orangutan, the kangaroo, the cow, the gray short-tailed opossum, the platypus, the red flour beetle, the domestic cat, the flatworm Schimdtea mediterranea, more species of fruit fly and several species of fungi.


Pogledajte video: Технологии секвенирования. Кирилл Григорьев Caribbean Genome Center, University of Puerto Rico (Decembar 2022).