Informacije

Lažno negativno sekvenciranje sljedeće generacije

Lažno negativno sekvenciranje sljedeće generacije


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

U otkrivanju varijanti, RNA-sekvenciranju i ChIP-sekvenciranju, pokazali smo kako uparujemo ili usklađujemo kratka NGS čitanja sa genomom, a zatim zaključujemo koristeći očitanja koja se agregiraju ili "gomilaju" u datom regionu: ili da pronađite SNP, kako biste kvantificirali količinu mRNA, ili kvantificirali količinu proteina koji je vezan za DNK. Definirajte "istinski pozitivan" kao otkrivanje SNP-a, otkrivanje ekspresije mRNA ili otkrivanje proteina koji je vezan za DNK. Što od sljedećeg (možete odabrati više od jednog) bi moglo dovesti do lažno negativnog, npr. ne otkrivamo pravi SNP, ekspresiju mRNA ili vezani protein na lokaciji/regiji?

koji je tačan odgovor? zašto? (možemo izabrati više od jednog)

1. Region do kojeg nam je stalo nije u referentnom genomu

2. Regija do koje nam je stalo pojavljuje se 1000 puta u genomu, a mi ignoriramo čitanja koja se podudaraju s toliko mjesta

3. Za regiju do koje nam je stalo, genom organizma je toliko različit od referentnog genoma da program za usklađivanje ne može pronaći podudaranje

4. Nikada nema lažnih pozitivnih rezultata


Primjer 1) mogao bi biti ako ste tražili mutaciju na Y hromozomu, ali vaša referentna sekvenca je imala samo autosome.

Pročitajte broj 2 malo pažljivije. Ako postoji regija koja se ponavlja 1000 puta u genomu, mnogi lajneri samo odbacuju ta očitanja, s obrazloženjem da od njih ne možete naučiti ništa korisno i beskorisno će naduvati izlazne datoteke. Razblaživanje pokrivenosti dijeljenjem pokrivenosti čitanjem će se dogoditi s nekim poravnavačima ako postoji samo nekoliko mjesta za čitanje, ali ne 1000.

Uredi. Dozvolite mi da pokušam dati bolji primjer.

Imate uzorak soja nekih gadnih bakterija otpornih na antibiotike. Ova bakterija ima neke gene smještene na plazmidu. Neki drugi laboratoriji su sekvencionirali ovu bakteriju i njen plazmid; to je tvoja referenca.

Poravnali ste očitavanja sa referentnim sojem bakterija, ali ups, slučajno ste izostavili plazmid. Dakle, vaša varijanta pozivaoca nije uočila nikakve razlike locirane u plazmidu. Ako ste požurili i niste provjerili da vidite pokrivenost očitanja na plazmidu, mogli biste pretpostaviti da se plazmid vašeg uzorka podudara s referencom, ali to niste slučajno provjerili.

Zatim dobijete još jedan uzorak otporan na antibiotike. Poravnate ga sa svojom referencom i ne vidite varijante. U redu, onda, to je to... osim što je razlog zašto ne vidite varijante zato što su ga ljudi koji su vam dali uzorak pogrešno klasificirali; to je zaista drugačija podvrsta, a neke regije vaše reference su previše različite od vašeg uzorka da bi se čitanja uskladila.

Općenito, samo morate zapamtiti da ako vaš varijantni pozivalac kaže da negdje nema varijante... to takođe može značiti da tamo nema čitanja. U stvarnom životu, ljudi će raditi neke QC na statistici čitanja poravnanja kako bi pokušali to uhvatiti.


Prva tri izbora se mogu i javljaju u genomici. Za primjere svakog od njih: genomi kancerogenih ćelija uključuju translokacije, koje mogu stvoriti regije genoma koje se ne pojavljuju u referentnom genomu. Postoje regije koje se javljaju 1000 puta u genomu, koje se nazivaju transpozoni. Mnogi softverski kanali odbacuju čitanja koja se mapiraju na mnoge lokacije, a onda se prava biologija (npr. vezani protein) koja se može pojaviti u tim regijama zanemaruje. Takođe, u sekvenciranju RNK ili DNK iz ćelija raka, može postojati toliko mutacija da programi za usklađivanje imaju poteškoća u pronalaženju podudaranja u referentnom genomu. Ili, ovo se može dogoditi ako uskladimo čitanja jedne vrste sa genomom druge vrste (koja još nije konstruisala referentni genom).


Koje su prednosti metagenomskog sekvenciranja sljedeće generacije?

Najveća snaga mNGS-a je u tome što je to nepristrasna dijagnostička metoda bez hipoteza, za razliku od metoda ciljane lančane reakcije polimeraze (PCR) koje se oslanjaju na prajmere za identifikaciju specifičnih ciljeva koje treba pojačati i detektirati. Čak ni univerzalne ili PCR metode širokog dometa nisu dovoljno široke da bi se smatrale metagenomskim, jer koriste specifične prajmere konzerviranog 16S ribosomalne RNK (rRNA) gena i internih transkribiranih razmaknica (ITS) za pojačavanje karakterističnih sekvenci nukleinskih kiselina koje se mogu bioinformatički klasificirati u bakterije/arheje, odnosno gljive.

Univerzalni prajmeri također predstavljaju problem prilikom dijagnosticiranja polimikrobnih infekcija molekularnim testovima. Ako su polimikrobne populacije prisutne kada se koristi sekvenciranje 16S, izvršit će se višestruki pozivi baza po nukleotidu, stvarajući mješoviti nukleotidni kromatogram koji se ne može interpretirati. Iako postoje dekonvolucione računske metode dostupne za predviđanje identificiranih organizama, one nisu u standardnoj upotrebi u mnogim laboratorijama, koje se često odražavaju na sekvencioniranje sljedeće generacije 16S gena za polimikrobne uzorke.


Sekvencioniranje nove generacije za nadzor SARS-CoV-2

SARS-CoV-2 može mutirati i evoluirati tokom vremena, što dovodi do pojave varijanti kao što su B.1.1.7, B.1.351 i P.1. U mnogim slučajevima, mutacije su beznačajne, ali neke mogu imati potencijal da povećaju prenosivost i težinu bolesti, kao i da negativno utiču na performanse dijagnostike, terapije i vakcina. Radna grupa Svjetske zdravstvene organizacije za evoluciju virusa SARS-CoV-2 i nekoliko nacionalnih vlasti pomažu da se brzo identifikuju mutacije i shvati njihov značaj.

Kako bismo stekli uvid u ulogu sekvenciranja sljedeće generacije (NGS) u globalnom nadzoru SARS-CoV-2, Tehnološke mreže razgovarao sa Michelle Fraser, generalnim direktorom, NGS za PerkinElmer. Michelle također objašnjava kako laboratorije koje rade u ovoj oblasti mogu povećati svoju propusnost, smanjiti povezane troškove i pojednostaviti analizu prikupljenih NGS podataka.

Anna MacDonald (AM): Možete li nam reći o nekim od najnovijih dostignuća u NGS tehnologiji?

Michelle Fraser (MF):
NGS se redovno koristi u istraživanjima od svog uvođenja 2005. U skorije vrijeme, NGS je razvijen za kliničku dijagnozu genetskih bolesti i skrining rizika od razvoja bolesti sa kasnim početkom. Ovaj pomak sa istraživačkog istraživanja na dijagnostiku uz nadoknadu troškova nosi sa sobom sazrijevanje instrumenata, kompleta i softvera za analizu i izvještavanje kako bi se stvorio kompletan uzorak koji će odgovoriti na tok posla koji mogu odobriti regulatorna tijela.

Kontinuirana evolucija i napredak u NGS-u također su povećali snagu NGS aplikacija. Metagenomika, multiomika i analize pojedinačnih ćelija su primjeri gdje NGS brzo napreduje.

AM: Kako se NGS primjenjuje za nadzor SARS-CoV-2?

MF:
Kada pacijent ili uzorak okoline otkrije pozitivan SARS-CoV-2 PCR-om, sljedeće pitanje je "odakle je došao?" Kada se virus prenosi s jedne osobe na drugu, virusni genom će biti identičan ili vrlo blizak njemu. Genom SARS-CoV-2 mutira u otprilike dvije tačke mutacije mjesečno, tako da praćenje virusa do izvora i identifikacija drugih ljudi koji su bili u bliskom kontaktu i možda još nisu bili pregledani mogu pomoći u kontroli širenja.

CDC je odredio tri klase varijanti zanimljivih varijanti koje, na osnovu njihove genomske sekvence, možda neće biti tako uspješno neutralizirane trenutnim vakcinama ili tretmanima i koje se prate, Varijante zabrinutosti koje su povezane s povećanom transmisijom, ozbiljnošću bolesti, smanjeni neuspjesi neutralizacije ili dijagnostičkog otkrivanja (lažno negativni testovi) i Varijante visoke posljedice koje će zahtijevati novu dijagnostiku, tretmane i za koje se očekuje da će dovesti do teže kliničke bolesti i povećane hospitalizacije. Na primjer, B.1.1.7 varijanta zabrinutosti je povezana sa značajno povećanim rizikom od prijenosa.

AM: Šta bi laboratorijsko osoblje danas trebalo da zna o najnovijim varijantama SARS-CoV-2?

MF:
Mutacije SARS-CoV-2 su oportunističke. Nove varijante nastaju preživljavanjem najsposobnijih. Trenutna stopa mutacija je upola manja od one kod gripe, ali je i dalje genom koji se stalno mijenja. Ovo može uticati na tačnost PCR testova, tako da je stalna budnost neophodna. U početku su laboratorije bile u potpunosti fokusirane na praćenje stope infekcije kroz pozitivnu ili negativnu detekciju SARS-CoV-2. Bio je to novi virus o kojem smo znali vrlo malo, osim što se brzo širio i izvršio je ogroman pritisak na globalne zdravstvene usluge. Kako se pandemija približava endemiji, bit će manje fokusa na dijagnozu COVID-a, a više na razumijevanju virusa. Očekuje se da će ovo povećati interes za genomiku i identificiranje novih varijanti kako se pojave.

AM: Stopa sekvenciranja uzoraka SARS-CoV-2 uvelike varira među zemljama i unutar zemlje kako globalna naučna zajednica može raditi protiv ovih izazova kako bi održala korak s virusnim mutacijama?

MF:
Globalna pandemija SARS-CoV-2 uspjela je biti stavljena pod samo mali stepen kontrole jer je globalna naučna zajednica radila zajedno. Prvi genomski konstrukt bio je javno dostupan, što je omogućilo programerima dijagnostičkih testova da kreiraju rješenja za testiranje, a farmaceutskim proizvođačima da kreiraju vakcine u rekordnom vremenu. Sekvenciranje će nastaviti da poboljšava naše razumijevanje SARS-CoV-2. Što je program sekvencioniranja rašireniji, to ćemo više varijanti otkriti i bolje ćemo razumjeti infekciju. Ako postoje regije u kojima nema informacija o sekvenci, bit će teško pratiti varijante i razumjeti kako virusne mutacije utječu na prijenos, ozbiljnost infekcije i efikasnost tretmana.

AM: Kako laboratorije mogu povećati svoju propusnost i/ili smanjiti troškove povezane s genomskim nadzorom SARS-Cov-2 mutacija koristeći NGS?

MF:
Eliminacija koraka, kao što je izolacija i normalizacija sekundarne nukleinske kiseline, smanjuje troškove i omogućava laboratorijama da povećaju svoju propusnost. Automatizacija može osloboditi ljudske resurse da se usredsrede na složenije zadatke, dozvoliti da se poveća broj uzoraka za seriranje i stoga smanji trošak po uzorku za sekvencioniranje reagensa. Uz to, povećane mogućnosti multipleksiranja omogućavaju laboratorijama da smanje svoje troškove sekvenciranja, povećaju propusnost i brže isporučuju rezultate.

AM: Kako laboratorije mogu pojednostaviti analizu prikupljenih NGS podataka?

MF:
Globalna saradnja u cilju razumijevanja SARS-CoV-2 također je uključivala programere softvera za analizu podataka NGS-a i skladišta genomskih sekvenci koji blisko sarađuju s akademskim i industrijskim istraživačkim grupama kako bi se pojednostavila i objedinila analiza podataka. Ovo je bio važan aspekt jer je značio da su sve laboratorije stvarale vrlo slične podatke koji se lako mogu uporediti između laboratorija širom svijeta. Cijev analize treba da bude u skladu sa zahtjevima CDC-a za praćenje varijanti i da se lako može dostaviti u NCBI i GISAID baze podataka.

AM: Koje su prednosti i nedostaci upotrebe RT-PCR-a za identifikaciju SARS-CoV-2 mutacija?

MF:
RT-PCR je i dalje zlatni standard primarni dijagnostički test za otkrivanje SARS-CoV-2 zbog brzog vremena preokreta, cijene i jednostavnog tumačenja pozitivnih/negativnih rezultata. Međutim, RT-PCR testovi ne daju cijeli genom za analizu. Varijante se identificiraju korištenjem cijelog genoma, tako da dok RT-PCR testovi mogu biti modificirani i prilagođeni za otkrivanje novih varijanti, varijante se prvo moraju identificirati sekvenciranjem. Moramo sekvencirati dio SARS-CoV-2 RT-PCR pozitivnih uzoraka kako bismo provjerili postoje li varijante, posebno ako postoji povećanje stope infekcije, ozbiljnosti simptoma ili drugog pokazatelja koji sugerira da postoji nova varijanta koja treba biti bolje shvaćeni i pažljivije praćeni.

Michelle Fraser razgovarala je s Annom MacDonald, naučnicom za tehnološke mreže.


Metode

Stručna komisija (u daljem tekstu: Komisija) sastavljena od italijanskih lekara i biologa izabrana je zbog njihove individualne ekspertize u istraživanju i kliničkoj praksi u lečenju CML-a i sastavljena je u maju 2018. Tokom prvog sastanka održanog sledećeg meseca, nacrt je projekta, te su određene teme koje čine strukturu ovog dokumenta. Ključna pitanja su odabrana kroz seriju upitnika, a svaki panelista je izradio izjave koje su se odnosile na jedno ili više pitanja, dok su preostali panelisti ocijenili da se slažu s tim izjavama i dali prijedloge za izmjene. Konačno, Komisija se sazvala na konsenzusnu konferenciju koja je održana u Milanu, Italija, u novembru 2018. Na ovoj konferenciji su dati konačni prijedlozi koristeći tehniku ​​nominalne grupe [23], po kojoj je od učesnika prvo zatraženo da komentarišu u krugu- robin mode o njihovim neslaganjima sa predloženim pitanjima, a zatim da glasaju za konačnu izjavu.


Lo YM, Corbetta N, Chamberlain PF, et al. Prisustvo fetalne DNK u majčinoj plazmi i serumu. Lancet 1997350:485–7.

Bianchi DW, Platt LD, Goldberg JD, Abuhamad AZ, Sehnert AJ, Rava RP IS izvor materinske krvi za precizno dijagnosticiranje fetalne aneuploidije (MELISSA) Studijska grupa. Detekcija fetalne aneuploidije na nivou genoma sekvenciranjem DNK u plazmi majke. Obstet Gynecol 2012119:890–901.

Chiu RW, Akolekar R, Zheng YW, et al. Neinvazivna prenatalna procjena trisomije 21 multipleksiranim sekvencioniranjem DNK u plazmi majke: studija validnosti velikog obima. BMJ 2011342:c7401.

Verweij EJ, Jacobsson B, van Scheltema PA, et al. Studija Evropske neinvazivne trizomije (EU-NITE): multicentrična prospektivna kohortna studija za neinvazivno testiranje fetalne trizomije 21. Prenat Diagn 201322:1–6.

Samuel A, Bonanno C, Oliphant A, Batey A, Wright JD. Frakcija fetalne DNK bez ćelija u serumu majke kao prediktor abnormalne invazije placente - pilot studija. Prenat Diagn 201333:1–4.

Tjoa ML, Cindrova-Davies T, Spasić-Bošković O, Bianchi DW, Burton GJ . Trofoblastični oksidativni stres i oslobađanje feto-placentalne DNK bez ćelija. Am J Pathol 2006169:400–4.

Flori E, Doray B, Gautier E, et al. Čini se da cirkulirajuća fetalna DNK bez ćelija u serumu majke potiče iz cito- i sincitio-trofoblastičnih ćelija. Izveštaj slučaja. Hum Reprod 200419:723–4.

Faas BH, de Ligt J, Janssen I, et al. Neinvazivna prenatalna dijagnoza fetalnih aneuploidija koristeći masovno paralelno sekvenciranje podvezivanjem i dokaz da fetalna DNK bez ćelija u majčinoj plazmi potiče od citotrofoblastnih ćelija. Expert Opin Biol Ther 201212 Suppl 1:S19–26.

Morain S, Greene MF, Mello MM . Nova era u neinvazivnom prenatalnom testiranju. N Engl J Med 2013369:499–501.

Mennuti MT, Cherry AM, Morrissette JJ, Dugoff L. Da li je vrijeme da se oglasi alarm zbog lažno pozitivnih DNK testiranja bez ćelija na fetalnu aneuploidiju? Am J Obstet Gynecol 2013209:415–9.

Mozersky J, Mennuti MT . Testiranje fetalne DNK bez ćelija: ko pokreće implementaciju? Genet Med 201315:433–4.

Gao Y, Stejskal D, Jiang F, Wang W. T18 lažno negativan rezultat NIPT-a u XXX, T18 slučaju zbog placentnog mozaicizma. Ultrazvuk Opstet Gynecol 2013. doi:10.1002/uog.13240.

Pan M, Li FT, Li Y, et al. Neskladni rezultati između fetalne kariotipizacije i neinvazivnog prenatalnog testiranja sekvencioniranjem plazme majke u slučaju uniparentalne disomije 21 zbog trizomijskog spašavanja. Prenat Diagn 201333:598–601.

Grati FR, Grimi B, Frascoli G, et al. Potvrda mozaicizma i uniparentalne disomije u amniocitima, nakon detekcije mozaičkih hromozomskih abnormalnosti u horionskim resicama. Eur J Hum Genet 200614:282–8.

Grati FR, Malvestiti F, Grimi B, et al. QF-PCR kao zamjena za kariotipizaciju citotrofoblasta za analizu horionskih resica: prednosti i ograničenja citogenetičke retrospektivne revizije 44.727 prenatalnih dijagnoza u prvom trimestru. Prenat Diagn 201333:502–8.

Simoni G, Brambati B, Danesino C, et al. Efikasne direktne analize hromozoma i određivanja enzima iz uzoraka horionskih resica u prvom tromjesečju trudnoće. Hum Genet 198363:349–57.

Verma RS, Babu A . Principi i tehnike ljudskih hromozoma . McGraw-Hill, Inc, 1995:24–6 (protokol 2.16).

McKinlay Gardner RJ, Sutherland GR, Shaffer LG : Anomalije hromozoma i genetsko savjetovanje (Oxfordske monografije o medicinskoj genetici) , 4. izdanje, poglavlje 27. Oxford University Press: New York, 2012:439–85.

Teški pozivi na prenatalne testove. The Wall Street Journal. http://online.wsj.com/news/articles/SB10001424127887324883604578398791568615644. Pristupljeno 23. avgusta 2013.

Hui L, Bianchi DW . Fetalne nukleinske kiseline bez ćelija u amnionskoj tečnosti. Hum Reprod Update 201117:362–71.

Bennington JL . Razvoj i struktura posteljice. u: Patologija placente (glavni problemi u patologiji) , vol. 8. Sauders: London, 1978:1–37.

Ciblis LA . Rast resica posteljice u prvom trimestru. J Reprod Med 19681:377–387.

Kaufmann P . Razvoj i diferencijacija stabla resica placente kod ljudi. Bibl Anat 198222:29–39.

Futch T, Spinosa J, Bhatt S, de Feo E, Rava RP, Sehnert AJ. Inicijalno kliničko laboratorijsko iskustvo u neinvazivnom prenatalnom testiranju na fetalnu aneuploidiju iz uzoraka DNK plazme majke. Prenat Diagn 201333:569–74.

Yao H, Zhang L, Zhang H, et al. Neinvazivno prenatalno genetsko testiranje na fetalnu aneuploidiju otkriva majčinu trizomiju X. Prenat Diagn 201232:1114–6.

Osborne CM, Hardisty E, Devers P, et al. Neskladni rezultati neinvazivnog prenatalnog testiranja kod pacijenta kojem je naknadno dijagnosticirana metastatska bolest. Prenat Diagn 201333:609–11.

Canick JA, Palomaki GE, Kloza EM, Lambert-Messerlian GM, Haddow JE . Utjecaj fetalne frakcije DNK u majčinoj plazmi na sljedeće generacije sekvencijskih testova za uobičajene fetalne aneuploidije. Prenat Diagn 201333:667–74.

Benn P, Cuckle H, Pergament E. Neinvazivno prenatalno testiranje na aneuploidiju: trenutno stanje i budući izgledi. Ultrazvuk Opstet Gynecol 201342:15–33.


Nalazi

Pozadina

Uz sve veću upotrebu tehnika sekvenciranja sljedeće generacije u istraživačkim grupama širom svijeta, također raste potreba za alatima koji mogu pomoći u nizvodnim analizama ogromne količine proizvedenih podataka sekvenciranja. Štaviše, kako troškovi sekvenciranja nastavljaju da opadaju[1], sve više grupa može priuštiti sekvencioniranje sljedeće generacije što dodatno povećava potrebu za efikasnom i preciznom prethodnom obradom podataka sekvenciranja. Shodno tome, mnoge grupe se moraju suočiti sa istim tipom problema što dovodi do in-house razvoja alata koji već postoje.

Jedan od problema na koji se susreću u mnogim eksperimentima - posebno kako se dužina čitanja stalno širi - je sekvenciranje fragmenata adaptera. Ako je dužina čitanja, L R, duži je od veličine umetka, L I, tada će očitavanje koje proizvodi mašina za sekvenciranje uključivati L A = L RL I nukleotida iz sekvence adaptera. Ovisno o korištenom protokolu za izgradnju biblioteke, fragmenti adaptera će biti prisutni na 3’ kraju čitanja, a moguće i kraju 5’. Ako se ovi fragmenti - koji se u ovom radu označavaju kao kontaminacija adaptera - ne uklone ispravno, oni mogu dovesti do promašenog poravnanja jer sekvencirani konstrukt ne odgovara genomu ili, ako je očitavanje mapirano u genom, zavaravajuće povećanje broja nepodudaranja na kraju mapiranja. Ova očitavanja koja sadrže kontaminaciju adaptera mogu zatim dovesti do pogrešnog genotipiziranja i SNP poziva dalje nizvodno u analizama. Nepodudaranja na kraju 5' zbog kontaminacije adaptera imaju čak i veću vjerovatnoću da će pogrešno odbaciti pravo podudaranje jer većina alata za mapiranje ovisi o početnoj regiji visoke sličnosti na 5' kraju čitanja (npr. zadano ponašanje Bowtie-a[2 ], BWA[3], SOAP[4] i SOAP2[5] ne dozvoljavaju više od 2 neusklađenosti u seed regionu).

Problem postaje dramatičniji što je molekul od interesa kraći – na primjer kada se sekvenciraju mikroRNA, ili unutar polja drevne DNK – iako problem nije izolovan u ovim poljima istraživanja. Stoga je od velike važnosti očistiti očitavanja uklanjanjem ovih podsekvencija negenomskog porijekla prije mapiranja na referentni genom ili izvođenja de novo sklapanje očitavanja. Budući da je ovo opći problem, postoji mnogo različitih programa koji ga pokušavaju riješiti, od kojih svaki pokazuje svoje snage i slabosti kao što je sažeto u Tabeli 1. Ove metode se razlikuju po tome koje karakteristike nude prilikom rezanja adaptera (npr. rukovanje jednostranim ili uparenim podacima, pronalaženje adaptera na kraju čitanja od 5' ili 3', traženje više različitih adaptera) i koje dodatne analize mogu biti izvedene kao što je srezivanje nukleotida niske kvalitete ili sortiranje očitavanja na osnovu multipleksiranja bar kodova.

Predstavljamo samostalni alat, AdapterRemoval, koji efikasno rješava većinu ovih problema istovremeno bez potrebe za pozivanjem više različitih programa. AdapterRemoval može pronaći adaptere i na 5' i 3' kraju čitanja, može rukovati i jednostranim i uparenim podacima, može ukloniti regije niske kvalitete i smanjiti N-ove iz čitanja, i može se srušiti preklapajući uparene -kraj čita. AdapterRemoval je nezavisno razvijen u našoj grupi gde je korišćen (iako kao neimenovani deo cevovoda) u brojnim velikim projektima sekvenciranja uglavnom fokusiranih na drevnu DNK[28–30]. Alat se stoga često koristio tokom godina i još uvijek je sastavni dio rada u Centru izvrsnosti u geogenetici u Kopenhagenu. AdapterRemoval je ažuriran i proširen na osnovu povratnih informacija i zahtjeva korisnika za rješavanje različitih problema na koje se naišlo. To je svestran alat koji je jednostavan za korištenje na bilo kojoj UNIX-baziranoj platformi.

Metode

AdapterRemoval koristi varijaciju Needleman-Wunsch algoritma[31] koja je izmijenjena za obavljanje poluglobalnog poravnanja bez razmaka tražeći podudaranja između 3’ kraja čitanja i 5’ kraja niza adaptera. Specifičnosti algoritma zavise od podataka (jedan ili upareni kraj) i drugih postavki kao što je opisano u nastavku. Ukupna funkcionalnost programa je ilustrovana na slici 1.

Ilustracija različitih konstrukcija i proizvedenih očitanja. Jednostrani podaci na vrhu, upareni kraj ispod. Umetci su označeni I, single-end reads R i upareni kraj čitanja R 1 i R 2. Označena dužina čitanja L R, označena dužina umetka L I. A) L IL R: Nema kontaminacije adaptera. B) L I < L R: kontaminacija adaptera dolazi na 3’ kraju. C) L I ≥ 2· L R: Nema kontaminacije adaptera i nema preklapanja između čitanja. D) L R < L I < 2 · L R: Nema kontaminacije adaptera, ali se dva očitavanja preklapaju. E) L I < L R: kontaminacija adaptera na 3’ krajevima oba očitavanja, preklapanje između 5’ krajeva očitavanja. Ove informacije se mogu koristiti za izvođenje potrebnog poravnanja u paru (nakon obrnutog dopunjavanja mate 2 iz para) za lociranje kontaminacije adaptera i/ili preklapanja između očitavanja

Ako je umetak koji se sekvencira kraći od dužine čitanja, čitanje će uključiti dio sekvence adaptera na kraju od 3’. U slučaju jednostranog čitanja AdapterRemoval vrši poravnanje između čitanja i očekivane sekvence adaptera. Prilikom obrade single-end čitanja identifikacija fragmenta adaptera postaje sve teža što je kraći.

Kada se analiziraju upareni podaci dostupni su mnogo više informacija: ako imamo kontaminaciju adaptera, ona će biti simetrična u dva čitanja (ako se ne pojave indeli, pogledajte sliku 1E) i program može precizno identificirati čak i jedan nukleotid iz adaptera. Dva očitavanja (od kojih je jedno obrnuto komplementarno) bit će identična u području preklapanja (tj. genomski umetak), a 5’ i 3’ krajevi očitavanja, respektivno, odgovarat će adapterima. Čak i kada se dopuštaju neusklađenosti, ovo čini proceduru izuzetno osjetljivom na kontaminaciju adaptera u ovim slučajevima.

Dozvolenu stopu neslaganja može postaviti korisnik, ali program prema zadanim postavkama zahtijeva savršeno podudaranje za poravnanja do 5 nukleotida, dozvoljava 1 neusklađenost za poravnanja do 10 nukleotida i dozvoljava razlomak (0,15 za upareni kraj i 0,33 za jednostruke kraj) dužine poravnanja da se ne podudaraju za duža poravnanja. Program koristi jednostavnu, ali efikasnu šemu bodovanja: 1 za utakmice, -1 za neusklađenost, 0 za poravnanje sa Ns. Odabrano poravnanje je najbolje u smislu ukupnog rezultata gdje je broj neusklađenosti u dozvoljenom rasponu.

Kako su praznine mnogo rjeđe od neusklađenosti u Illumina podacima[32], ne uključujemo poravnanja sa prazninama, a budući da izračunavamo samo poravnanja između 3' kraja očitavanja i 5' kraja adaptera, potrebna nam je samo gornja polovica matrica za dinamičko programiranje iznad glavne dijagonale (slika 2, panel 3). Zapažanja su pokazala da čitanje ponekad propusti nekoliko osnova na kraju 5’. Ovo može dovesti do propuštanja kontaminacije adaptera jer je poravnanje ograničeno na gornju polovinu matrice, čime se dva očitavanja ne poravnavaju pravilno (Slika 2, panel 1 i 2). Da bi se ovo riješilo, poravnanja se mogu lagano proširiti što efektivno pomjera jedno očitanje prema kraju od 3’ S nukleotida u odnosu na drugo očitanje (podrazumevano je S=2). Ovo stvara previs na 5' kraju adaptera gdje se prvih nekoliko nukleotida zanemaruje jer nisu u sekvenciranom čitanju. Cijena ovoga je to S dodatne poddijagonale moraju biti izračunate u matrici kako bi se uključila ova poravnanja (Slika 2, panel 3).

Potreba za pomicanjem poravnanja zbog nedostajućih nukleotida. Ako očitavanju nedostaje nekoliko nukleotida na kraju 5’, ispravno poravnanje neće se moći oporaviti ako se postupak zaustavi na prvoj poziciji. Kao što je prikazano u 1), ovo dovodi do višestrukih neusklađenosti i moguće kontaminacije propuštenog adaptera. Ako je poravnanje pomaknuto za S nukleotida kao što je prikazano u 2), može se pronaći ispravno poravnanje. Matrica dinamičkog programiranja u 3) pokazuje koji unosi u matrici vode do dva rješenja prikazana ovdje. Svijetlo sivi dio je gornja polovica matrice koja se izračunava prema zadanim postavkama, a dva tamno siva unosa ilustriraju dva poravnanja prikazana u 1) i 2)

AdapterRemoval omogućava da se parovi čitanja koji se preklapaju sažmu u jedno čitanje bez obzira da li oba sadrže kontaminaciju adaptera ili ne (vidi sliku 1). Ova ideja je takođe samostalno sprovedena u nedavno objavljenom programu FLASH[33]. Ako je dužina umetka, L I, duži je od pročitane dužine, L R, ali kraći od 2 · L R, tada nemamo kontaminaciju adaptera, ali se dva očitavanja preklapaju na krajevima od 3’. U tom slučaju se dva očitavanja mogu kombinovati u jedno očitavanje i kvaliteti za preklapanje mogu se ponovo procijeniti na osnovu dva niza kvaliteta. Ako dva čitanja u paru sadrže adaptersku sekvencu, preostali preklapajući fragmenti genomskog porijekla bit će iz iste originalne sekvence i mogu se isto tako skupiti u jedno čitanje i kvaliteti ponovo procijeniti.

Za sažimanje dva čitanja u jedno, AdapterRemoval tretira ocjene kvaliteta za regiju koja se preklapa kao matricu bodovanja specifične za poziciju (PSSM). Za svaku poziciju u preklapanju imamo nukleotid i ocjenu kvaliteta iz oba očitavanja. Ocjena kvaliteta, Q, može se pretvoriti u vjerovatnoću greške, P e = 10 −Q/10 . Ovo daje vjerovatnoću za nukleotid u očitavanju, P1 = 1 −P e, i vjerovatnoća za svaki od preostala tri nukleotida, P2 = P e /3. Ove vjerovatnoće se kombinuju za dva očitavanja kako bi se dobila jedna ponovo procijenjena distribucija vjerovatnoće za regiju koja se preklapa. Konačno, najvjerovatnija sekvenca nukleotida se bira na osnovu PSSM-a, a vjerovatnoće se prevode nazad u ponovno procijenjene Phred ocjene kvaliteta[34]. Ako korisnik odluči da to učini, AdapterRemoval će otkriti ove slučajeve i izbaciti novu sekvencu nukleotida i ponovno procijenjene rezultate kvaliteta. Korisnik može odrediti koliko dugo preklapanje mora biti da bi se dva čitanja kombinirala (podrazumevano je 11 nukleotida kao u [35]).

Dobro je poznato da je kvalitet čitanja niži na krajevima[32], sa povišenim stopama grešaka i na 5’ i – posebno – na 3’ kraju čitanja. AdapterRemoval je stoga dizajniran da se s tim pozabavi na dva različita načina: Moguće je skratiti uzastopne dijelove znaka dvosmislenosti N sa oba kraja čitanja. Budući da prisustvo Ns može otežati mapiranje zbog povećanog broja lažnih pogodaka, obično je važno ukloniti ove neinformativne pozicije. Nadalje, AdapterRemoval može skratiti očitavanja na osnovu ocjena kvaliteta uklanjanjem uzastopnih dijelova nukleotida sa oba kraja očitavanja gdje ocjene kvaliteta ne prelaze dati prag (podrazumevano je da se skrati 2 ili niže). Ove dvije opcije podrezivanja se naravno mogu koristiti samostalno ili u kombinaciji. S tim u vezi, program također ima mogućnost odbacivanja čitanja koja sadrže previše N-ova čak i nakon skraćivanja. Koliko Ns treba dozvoliti definira korisnik.

Korištenjem AdapterRemoval također je moguće pronaći i ukloniti adaptere sa 5’ kraja očitavanja. Međutim, zbog razlike u eksperimentalnoj postavci to se radi na drugačiji i strožiji način nego na 3’ kraju. Prvo, tolerira se najviše jedno neslaganje u poravnatom dijelu čitanja i adaptera. Drugo, očekuje se da će sekvenca adaptera od 5’ biti prisutna u gotovo punoj dužini. Dakle, skraćivanje dozvoljava samo da adapter sklizne nekoliko pozicija koje odgovaraju prvih nekoliko nukleotida adaptera koji nisu prisutni u očitanju. Ovaj parametar može definirati korisnik, ali zadana vrijednost je do dva nukleotida, a ove proklizane pozicije ne doprinose broju nepodudaranja.

Kada se koristi AdapterRemoval čita jednu ili dvije FASTQ datoteke i ovisno o postavkama izlaz se upisuje u više datoteka. U jednom slučaju, jedna datoteka sadrži skraćena čitanja, a druga sadrži odbačena čitanja (zbog npr. dužine ili kontrole kvaliteta). U slučaju uparenog kraja, skraćeni parovi se upisuju u dvije nove datoteke koje zadržavaju redoslijed parova netaknutim. Ako se jedan par u paru odbaci, preostalo čitanje se upisuje u singleton datoteku kako bi se zadržalo što više korisnih podataka. Ova čitanja se tada mogu tretirati kao jednostrano čitanje. Sva odbačena čitanja se zapisuju u posebnu datoteku. AdapterRemoval može raditi sa komprimiranim datotekama koristeći cijevi kao što je opisano u korisničkom priručniku, korisnik može specificirati korištenu bazu kvaliteta (ili Phred + 33 (podrazumevano) ili Phred + 64), a korisnik može odrediti minimalnu dužinu čitanja nakon obrezivanja (podrazumevano je 15 nukleotida).

Simulirani skup testova je kreiran na osnovu modernog skupa podataka uparenog kraja Yersinia pestis (SRA pristup SRX028780). Iz ovog skupa podataka ekstrahirano je 1.000.000 parova čitanja sa svakim očitanjem dugim 75 nukleotida. Za svaki par uzorkovana je simulirana dužina umetanja između 0 i 200 nukleotida. Ako je dužina umetka bila 150 nukleotida ili više, očitavanja se ne preklapaju i nisu napravljene nikakve promjene u podacima. Ako je dužina umetka bila između 149 i 75 nukleotida, dva očitavanja se preklapaju, ali nemamo kontaminaciju adaptera. U ovom slučaju, podsekvenca zasnovana na dužini umetanja uzeta je iz čitanja 1, obrnuto komplementovana i umetnuta u čitanje 2, a zatim je novi deo čitanja 2 nasumično mutiran na osnovu rezultata kvaliteta da bi se simulirale greške čitanja. Ako je dužina umetanja bila kraća od 75 nukleotida, podsekvenca čitanja 1 je kopirana u čitanje 2 kao što je gore navedeno, a pored toga sekvenca adaptera je dodana u oba čitanja sa dva različita adaptera. Konačno, nove sekvence su mutirane na osnovu rezultata kvaliteta. Ovo daje 1.000.000 parova čitanja sa poznatom kontaminacijom adaptera u 373.963 slučaja i bez adaptera u preostalih 626.037 parova.

Rezultati testa

The performance of AdapterRemoval was tested on the simulated paired-end dataset described above and compared to another program that is able to handle both single-end and paired-end data, Trimmomatic version 0.20[27]. Trimmomatic was run as described on the website but changing the minimum read length to 15 after trimming to make it comparable to AdapterRemoval. For single-end analysis both programs were run on just the first read from each pair. In this test the programs were only used for trimming adapters and no filtering based on Ns or low-quality nucleotides was used.

After trimming, the output from each program was analyzed and five categories of cases were recorded:

How often did the program trim a read that did not contain adapter?

How often did the program trim only the adapter sequence?

How often did the program trim more than the adapter sequence?

How often did the program trim less than the adapter sequence?

How often did the program not trim anything from a read with adapter contamination?

The false positive rate is the sum of cases 1 and 3, i.e. the cases where the program trimmed nucleotides that were not from the adapter (even if the adapter sequence was also removed). The true positive rate is case 2 where only the adapter is removed. The sum of cases 4 and 5 is the false negative rate since, in both cases, the program failed to remove the full adapter sequence. The number of reads containing no adapter and not being trimmed at all is the true negative rate. From these numbers, positive predictive value, sensitivity, specificity and Matthew’s correlation coefficient were calculated for both programs:

The results are summarized in Table2 together with run times and maximum memory usage as reported by the UNIX time command. AdapterRemoval runs slower than Trimmomatic but uses less memory.

Trimmomatic performs equally good on both single-end and paired-end data performing the exact same trimming. It has perfect specificity and positive predictive value at a modest sensitivity, yielding a MCC of 0.48. However, when looking at the results it is clear that in the paired-end case Trimmomatic trims fewer of the reverse reads (86,043 reads are trimmed exactly) thus missing more adapters in those cases (287,920). It is not clear why it does not trim both members of a pair the same. For this test, the best numbers were used in the calculations, and the program was run with all combinations of adapter sequences (both original and reverse-complemented) to make sure that the correct sequences were tested.

In the single-end case, AdapterRemoval shows good performance with lower specificity and positive predictive value than Trimmomatic but also a much higher sensitivity and, hence, MCC of 0.71. AdapterRemoval trims many more adapters correctly but also wrongly trims more reads without adapters.

As expected, all the measures of accuracy go up when using AdapterRemoval on paired-end data compared to single-end data. The extra information available in having two reads that align in case of adapter contamination makes AdapterRemoval much better at removing only true adapter residues from the reads. This is especially clear from the false positive rate that drops by almost a factor 1000. The MCC is increased from 0.71 to 0.94.

As mentioned above, Trimmomatic was run using the the default parameters given on the website and only changing parameters to make it directly comparable to AdapterRemoval. It is likely that Trimmomatic would perform better if the parameters were tweaked which has not been done in this experiment. However, based on this test AdapterRemoval shows good performance on all measures. A test where both programs also trimmed Ns and low-quality nucleotides showed the same overall results as above. Future work on AdapterRemoval should focus on improving the run time and including an option for trimming multiple adapters simultaneously.


Rezultati

Sample and patient characteristics

Demographic features of the patients were provided in Table 1. 87 males and 22 females participated in our study, whose average age was 61 years old, average length of stay was 17.5 days and the case fatality rate were 11.9%. Most (37/109, 33.9%) of our samples were from blood, 36 of 109 (33.0%) were from BALF, 12 of 109 (11.0%) were from tissue and 9 (8.3%) of 109 were from sputum, followed by pleural fluid (7, 6.4%), CSF (4, 3.7%), pus (2, 1.8%), bone marrow (1, 0.9%) and nasal swab (1, 0.9%) (Fig. 3a). In the study cohort, 92 (84.4%) patients diagnosed with confirmed pathogens by clinicians were assigned to ID group. The remaining specimens were subdivided into the NID (16/109, 14.7%) and unknown (1/109, 0.9%) groups (Fig. 3b). There were no statistical differences between ID group and NID group in age, gender, length of stay and case fatality rate (str > 0.05 in all). Most patients were diagnosed with respiratory system infections (73/109, 67.0%), followed by bloodstream infections (10/109, 9.17%), pleural effusion (6/109, 5.50%) and central nervous system infections (6/109, 5.50%) as shown in Fig. 3c.

Patients composition and samples types. a. In samples of this study, 33.9% were from blood which was the most, 33.0% from BALF, 11.0% from tissue and the others were from sputum (8.3%), pleural fluid (6.4%), CSF (3.7%), pus (1.8%), bone marrow (0.9%) and nasal swab (0.9%). b. Patients were subdivided into ID (92/109, 84.4%), NID (16/109, 14.7%) and unknown (1/109, 0.9%) groups according to their diagnosis by conventional technique. c. Infection sites of patients in ID group. Most were respiratory system infections (73/109, 67.0%) and followed by bloodstream infections (10/109, 9.17%), pleural effusion (6/109, 5.50%), central nervous system infections (6/109, 5.50%), cardiovascular system infection (2/109,1.83%), eye, ear, nose, throat, or mouth infection (2/109,1.83%), skin and soft tissue infection (1/109, 0.92%), multifocal infection (1/109, 0.92%), urinary system infection (1/109, 0.92%). Abbreviations: CSF, cerebrospinal fluid BALF, bronchoalveolar lavage fluid

Diagnostic performance comparison of mNGS and culture

Comparison of diagnostic performance for differentiating ID from NID

The cases of mNGS and culture tests in this study were illustrated in Fig. 4a. In the chi-square test of positive rate, there were statistical differences between mNGS and culture of all and of ID group, but no differences in NID and unknown group for the limited amounts. 105 samples were included for further study to compare the diagnostic efficiency for differentiating ID from NID. The positive predictive values and negative predictive values of diagnosing infectious disease by mNGS were 92.3 and 27.5%, respectively. The positive likelihood ratio and negative likelihood ratio being 2.16 and 0.47. The results showed that mNGS increased the sensitivity rate (positive number in ID/ID number) by approximately 44% compared with that of culture (67.4% vs 23.6% P < 0.001) and decreased the specificity rate (negative number in NID /NID number) by 12.5% compared with that of culture (68.8% vs 81.3% P = 0.41) (Fig. 4b).

Diagnostic Performance Comparison of mNGS and Culture. a. Positive and negative cases in all, ID, NID and unknown group of mNGS and the culture, respectively. There were statistical differences between mNGS and culture of all (P < 0.01) and of ID group (P < 0.01), but no differences in NID and unknown group for the limited amounts(P > 0,05). b. Contingency tables showed the sensitivity and specificity of mNGS were 67.4 and 68.8%, while those of culture were 23.6 and 81.3%. mNGS increased the sensitivity in comparison with that of culture (P < 0.001) while there were no differences in specificity between them (P = 0.41). c. Pie chart demonstrated the positivity distribution of mNGS and culture for all samples from 3 groups. 53.21% were positive by mNGS, 4.59% by culture, 19.27% by both and 22.94% were both negative. Abbreviations: NPV, negative predictive values PPV, positive predictive values

Concordance between mNGS and culture for pathogen detection

In this study, mNGS and culture were both positive in 21 of 109 (19.3%) cases and were both negative in 25 of 109 (22.9%) cases. There were 58 cases (53.2%) were positive by mNGS only and 5 (4.6%) were positive only by culture. The 2 results in double-positive cases were completely matched (overlapped of all pathogens) in 3 of 21 and totally mismatched (overlapped of no pathogen) in 3 of 21 (Fig. 4c). The remaining 15 cases were found to at least one but not all overlapped of pathogens in polymicrobial results, which defined as “partly matched”.

“False positives” and “false negatives” of mNGS

In the ID group, three culturable pathogens were missed by mNGS. Among the three “mNGS false-negative” samples, there were 2 culture results paradoxical with clinical diagnosis, the other 1 was completely unidentified by mNGS. At the same time, the possible reasons for the 7 cases of “mNGS false-positive” in the NID group included potential concomitant infection with NIDs (3/7), overinterpretation (3/7) and unknown (1/7) (Table 2).

Comparison of mNGS and culture testing by pathogens and samples

Comparison analysis at the pathogen-type level

Klebsiella (10/69) was the most commonly detected pathogen among the 69 microbes isolated in mNGS and culture testing, followed by bacteria without MTB/NTM (9/69), Aspergillus (6/69), Pseudomonas (6/69) and EBV (6/69) (Fig. 5a). The percentage of mNGS-positive samples observed to have a higher yield rate than that of culture, but the differences were not significant (P > 0.05) in terms of Klebsiella, bacteria without MTB/NTM, EBV, CMV due to the small sample size. In Acinetobacter baumannii (n = 2) and MTB (n = 3), the number of mNGS-positive samples was equally with that of culture-positive samples. While only mNGS indicated positive results in NTM (n = 4), Anaerobes (n = 4), Saccharomyces cerevisiae (n = 2), Proteus (n = 1), Pneumocystis carinii (n = 2), Abiotrophia (n = 1), Nocardia (n = 3), Staphylococcus aureus (n = 2), Enterococcu (n = 2) and Escherichia coli (n = 1).

The overlap of positivity between mNGS and culture in pathogen and sample types. a. 19 pathogens detected in ID group with their corresponding frequencies were showed in histograms. Klebsiella, bacteria without MTB/NTM, EBV, CMV, NTM, Anaerobes, Saccharomyces cerevisiae, Proteus, Pneumocystis carinii, Abiotrophia, Nocardia, Staphylococcus aureus, Enterococcu and Escherichia coli demonstrated a trend of higher positivity rate in mNGS than that in culture with no statistical differences (P > 0,05). Acinetobacter baumannii and MTB were found equally in two groups. b. The overall sensitivity of mNGS in the different sample types were significantly different (P = 0.03) while sample types did not affect the sensitivity of pathogens in culture. Interestingly, especially in the types of BALF, blood and sputum samples, mNGS had significantly higher sensitivity than the culture (P = 0.002 for BALF, P < 0.001 for blood, P = 0.037 for sputum). Abbreviations: BALF, bronchoalveolar lavage fluid CSF, cerebrospinal fluid mNGS, metagenomic next-generation sequencing HSV, herpes simplex virus CMV, cytomegalovirus EBV, Epstein-Barr virus MTB, Mycobacterium tuberculosis NTM, nontuberculous mycobacteria ns, no significant difference

Comparison analysis at the sample-type level

In the types of BALF, tissue, blood and sputum samples, mNGS detection had significantly higher sensitivity than the culture method (P = 0.002 for BALF, P = 0.025 for tissue, P < 0.001 for blood, P = 0.018 for sputum), and the overall sensitivity of mNGS in the sample types was significantly different (P = 0,03). In the types of pleural fluid, CSF, pus, bone marrow and nasal swab, there were no significant differences in sensitivity between two methods (P > 0,05). In addition, in the culture method, the positive rate in BALF was higher than that in the whole blood (P = 0.019), and there was no difference in the overall sensitivity of the culture method in the sample type, as shown in Fig. 5b.

Comparison of infection indexes in positive and negative group by mNGS in ID

Classification and counting of leukocyte and lymphocyte in positive and negative group by mNGS

In this study, complete blood count, CRP and PCT tests were examined on the day of examination of pathogenic microorganisms to determine the differences in the total number of white blood cells, lymphocytes and neutrophils between the positive group and the negative group by mNGS. The results showed (Table 3) that there were no statistically differences in leukocyte and lymphocyte between positive and negative groups by mNGS (P > 0,05).

Comparison of cytokine concentrations in positive and negative group by mNGS

In order to explore the correlation between the status of immune function in patients and the positive results of pathogen examination, this study detected and analyzed the peripheral blood (TNF-a, IL-2, IL-4, IL-6, IL-8, IL-10, IL-17A and INF-r) in infected patients. The results indicated that the peripheral blood concentrations of IL-10 in the positive group was higher than that in the negative group, and the differences were statistically significant (P = 0.044), while other cytokine showed no difference between groups as shown in Table 3.

Analysis of correlative factors for positive result of pathogen extraction by mNGS

In order to further explore the related risk factors of positive mNGS test in infected patients, this study used Logistic multivariate regression analysis to analyze the patients’ information and whether the pathogen was detected in the patients. After the confounding factors were removed, the variables that were significant for detection was age (P = 0.037, OR:1.076, 95% CI:1.005–1.152), which promoted the detection of pathogens (Table 4).

Potential implications of clinical mNGS test

Potential inappropriate antibiotic usage for patients with virus isolates

There were 4 viruses identified by mNGS from 23 patients in this study, the majority of the identified viruses were herpes simplex virus (n = 15), followed by Epstein-Barr virus/ herpes simplex virus (n = 5), Epstein-Barr virus (n = 1), Hepatitis A virus (n = 1) and torque teno virus (n = 1). Nearly 50% of patients were diagnosed with a hospital-acquired infection (12/23) and 17 of 23 patients were given broad-spectrum antibiotics based on symptoms, imaging. 10 of 23 patients were suspected of inappropriate antibiotic usage, which means after broad-spectrum antibiotic treatment, patients’ symptoms did not improve or even worsened and after identifying the real pathogen through mNGS and adjusting the antibiotic use based on that, patients’ condition improved. 7 of 23 were considered immunocompromised hosts characterized by deficiency of the immune system or immune response caused by infectious factors, mycotoxins, drugs and nutritional deficiencies. (Table 5).

The influence of positive by mNGS on the hospital days and survival of patients

As Table 6 showed, there were 67 samples in positive group with 57 males and 26 in negative group with 20 males. There was no significant difference in mean age between the two groups (59.70 yrs. vs 60.50 yrs., P = 0.84). Positive group had a longer hospital day (HOD, 176.63 days vs 150.96 days, P = 0.047) and a higher 28-day mortality (9.0% vs 0%, P = 0.049) than those of negative group, but there were no statistical differences in 14-day mortality (4.5% vs 0%, P = 0.278) and 90-day mortality (13.4% vs 3.9%, P = 0.180) between groups. The average survival time of two groups were 176.64 days and 150.96 days, respectively, but P value for t test between groups was 0.425, no statistical differences. The survival curves of the two groups were shown in Fig. 6. At the meantime, we analyzed the relationship between pathogens read number and HOD, 14-day-mortality, 28-day-mortality and 90-day-mortality, which showed that the higher pathogens read number, the higher 90-day-mortality and the longer HOD (Table 7).

The survival curves of positive and negative group of mNGS in ID. The survival curves suggested that the overall survival rate declined faster in the positive group, however, there was no statistically differences between the two groups


Zaključak

By utilizing MID tagging, NGS 454 pyrosequencing and bioinformatic recovery, the DNA barcodes of 190 specimens were recovered using 1/8th of a complete 454 pyrosequencing run with greater success as compared to conventional Sanger-based sequencing. Next-generation sequencing devices provide significantly lower cost per base as compared to Sanger sequencing hence, efficient use of MID tagging can result in more cost-effective DNA barcode analysis. Additional sequence information (e.g. heteroplasmy, contamination, Wolbachia) gained from parallel sequencing of each specimen, through NGS, is a unique feature that cannot be feasibly achieved through Sanger sequencing. The error rate of 454 pyrosequencing requires the exclusion, through bioinformatic filters, of a large number of the sequences produced. While base substitution is a rare occurrence, the most common pyrosequencing error in sequencing by synthesis with multiple nucleotide incorporation is the over or under base calling especially in homopolymeric regions (Margulies et al. 2005 ). Several bioinformatic solutions are available to deal with such sequencing artefacts (e.g. Gilles et al. 2011 ). For example, screening for nucleotides with low Phred scores within homopolymeric regions and using the amino acid reading frame in protein-coding markers can further overcome the negative impact of this issue (Shokralla et al. 2011 ). Moreover, increased sequencing read length and depth can statistically alleviate the effect of the base calling errors. Both of these factors can contribute to a higher probability of obtaining high-quality sequences in the output sequences generated. In this respect, newer versions of 454 pyrosequencing or other NGS platforms have improved their sequencing output to decrease the probability of sequencing errors (Taberlet et al. 2012 ).

The total number of sequences produced limits the number of specimens that can be included in a run if sufficient sequencing depth is to be maintained. A decreased error rate and increased sequencing throughput will further amplify the rate at which DNA barcodes can be produced with NGS technology. Our study provides a new example of the application of NGS in a realistic high-throughput DNA barcoding scenario and sets the stage for further use of NGS devices in routine single specimen DNA barcoding. Although we have tested our approach on a Roche-454 FLX model, the technique is not platform-specific and can be applied to other available NGS platforms. For example, desktop NGS devices (e.g. Illumina MiSeq, Roche-454 Junior, Ion Torrent PGM) are now feasible options for any laboratory (Table 1). However, prior to NGS-based DNA barcoding efforts, MID tags must be tested for different NGS platforms according to the specific chemistry and the sequencing errors associated with each.

454 GS FLX + 454 Junior Illumina HiSeq Illumina MiSeq Ion Torrent PGM Sanger ABI 3730xl
Max. read length 700 bp 400 bp 2 × 150 bp 2 × 300 bp 400 bp 1–1.5 kb
Max. output/run 450–700 Mb 35 Mb 150–180 Gb 13.2–15 Gb 1.2–2 Gb 96 Kb
Max. reads/run 700 k–1 M S-R 70 K S-R 1.2 Billion PE-R 44–50 M PE-R 4–5.5 M S-R 96 S-R
Time per run 23 h 10 h 40 h 65 h 7.3 h 4 h
  • S-R, single reads PE-R, paired-end reads Information in this table was obtained from manufacturers' web pages accessed on 7 January 2014.

The number of specimens to be multiplexed in a single experiment depends on at least four factors: (i) the number of MID tags compatible with the adaptor sequences of each platform (ii) the possibility of sequencing the same MID tags in physically separated lanes of a single run (iii) the number of generated sequences per run and (iv) the required sequence depth needed per specimen. A single NGS device can be used for a wide range of applications from genome and transcriptome sequencing to environmental metagenomics and DNA metasystematics (Hajibabaei et al. 2012 Shokralla et al. 2012 Taberlet et al. 2012 ). Here, we demonstrate the feasibility of NGS for single specimen DNA barcoding for library preparation or specimen identification. The application of NGS in specimen barcoding, however, should require standardized and rigorous platform-specific quality control steps to ensure the highest-quality DNA barcodes. When millions of DNA strands can be sequenced in parallel and many hundreds can be assigned to each component target amplicon, there is no need to generate a single DNA sequence.


This article is in the 15 th percentile (ranked 284,755 th ) of the 384,483 tracked articles of a similar age in all journals and the 17 th percentile (ranked 28 th ) of the 39 tracked articles of a similar age in Časopis za potpomognutu reprodukciju i genetiku

Altmetric calculates a score based on the online attention an article receives. Each coloured thread in the circle represents a different type of online attention. The number in the centre is the Altmetric score. Social media and mainstream news media are the main sources that calculate the score. Reference managers such as Mendeley are also tracked but do not contribute to the score. Older articles often score higher because they have had more time to get noticed. To account for this, Altmetric has included the context data for other articles of a similar age.


Pogledajte video: SOLiD DNA Sequencing (Februar 2023).