Informacije

(Ažurirano pitanje) Problem s srednja vrijednost Fold-change u poređenju s apsolutnim podacima (u qPCR)

(Ažurirano pitanje) Problem s srednja vrijednost Fold-change u poređenju s apsolutnim podacima (u qPCR)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Za donji problem svjestan sam statistike koja je u pitanju, ali jednostavno ne mogu dohvatiti sljedeće:

U biologiji koristimo qPCR za mjerenje ekspresije gena ili u osnovi broja kopija mRNA. To radi tako što broji koliko ciklusa pojačanja (2^) treba da dostigne prag. Dakle, da pojednostavimo sve, pretpostavimo da je za 1024 kopije potrebno 10 ciklusa (2^10). Ako ima više kopija, bilo bi potrebno manje ciklusa da dostigne prag, dakle 2024 kopija bi trebalo 9 ciklusa, 512 kopija 11 ciklusa itd... Sada zamislite sljedeći scenario:

Imamo sljedeće uzorke:

Uzorak 1. 1024 kopije gena A i 4096 kopija gena B Uzorak 2. 1024 kopije gena A i 16384 kopije gena B

Sada želimo uporediti uzorak 2 do 1, sa genom B u odnosu na gen A:

U apsolutnim brojevima to bi bilo:

Uzorak 1. 4096 /1024 = 4x više B Uzorak 2. 16384 /1024 = 16x više B Prosječni iznos više B = (16 + 4) / 2 = 10x više B

Sada sa qPCR-om isti uzorci odozgo bi izgledali ovako:

Uzorak 1. Gen A 10 ciklusa, Gen B 8 ciklusa. Uzorak 2. Gen A 10 ciklusa, Gen B 6 ciklusa.

Sada koristeći standardne metode koje se koriste za qPCR podatke prvo uzimamo razliku između gena B i A. Nakon toga slijedi srednja vrijednost razlike i uzima se 2^.

Uzorak 1. 10 - 8 = 2 ciklusa Uzorak 2. 10 - 6 = 4 ciklusa Prosječni iznos više B = 2^((2 + 4)/2) = 8x više B

Sve publikacije / softverski alati itd. Računat će u prosjeku 8 puta više B. I svjestan sam da ovo potječe iz log2 ljestvice, međutim zašto se ova statistički ispravna metoda razlikuje po ishodu od apsolutnih brojeva?

Update Ja sam pojednostavio svoje pitanje, pa ispod donosimo još neke detalje o svom "problemu".

Stanje 1 biorep 1. 1024 kopije ref i 1024 kopije gena X Stanje 1 biorep 2. 1024 kopije ref i 1024 kopije gena X Condition 2 biorep 1. 1024 kopije ref i 4096 kopije gena 2 Condition 2. 1024 kopije ref i 16384 kopije gena X

Dakle, za izračunavanje apsolutnih brojeva prosječne količine više gena X u stanju 2 u odnosu na 1:

Ovdje možemo zaboraviti referentni gen jer su količine cDNA iste, stoga: Stanje 1 biorep 1 i 2: prosječno (1024 + 1024) / 2 = 1024 kopije Stanje 2 biorep 1 i 2: prosječno (4096 + 16384) / 2 = 10240 primjeraka Stanje 2 vs 1: prosječno 10240 /1024 = 10x više gena X u stanju 2 vs 1

Sada sa qPCR CT vrijednostima na osnovu gornjih brojeva:

Uslov 1 biorep 1. Ref_CT 10 i GeneX_CT 10 Biorep stanje 1

Sada koristeći službene qPCR izračune:

Uslov 1, Ref_CT srednja vrednost (10 + 10) / 2 = 10 Uslov 2, Ref_CT srednja vrednost (10 + 10) / 2 = 10 Uslov 1, GeneX_CT srednja vrednost (10 + 10) / 2 = 10 Uslov 2, GeneX_CT srednja vrednost (8 + 6) / 2 = 7 Ref_deltaCT (10 - 10) = 0 GeneX_deltaCT (10 - 7) = 3 delta_deltaCT (3 - 0) = 3 Uslov razlike 2 vs 1 = (2^3) = 8x

Ovo je u prosjeku 8 puta više Gene X u stanju 2 u odnosu na stanje 1. Ovdje je sada razlika 8x u odnosu na 10x. Također, svaki program koji ćete koristiti za popunjavanje ovih CT vrijednosti rezultirat će omjerom od 8 u odnosu na 10.

Da li je to možda zato što ovu metodu koja se izjednačava sa 8 treba koristiti samo za tehničke replike, a bioreps bi trebao koristiti drugačiju jednačinu koja rezultira 10?


Uzorak 1. 4096 / 1024 = 4x više B

Uzorak 2. 16384 /1024 = 16x više B

Prosječan iznos više B = (16 + 4) / 2 = 10x više B

To nije pravi način. Izračunavate prosječan izrazBu oba uzorka. To ne znači da postoji10xvišeB. Postoji samo4xvišeBuUzorak-2u odnosu naUzorak-1.

Gene-Ane mijenja svoju ekspresiju među uzorcima i može se koristiti kao referentni gen.

Ako izračunate po ciklusu praga, promjena nagiba $ = 2^{8-6} = 4x$

Pogledajte i ovaj post.

Prosjek se izračunava između ponavljanja, a ne između različitih eksperimentalnih uvjeta.

Ponekad prosjek dva eksperimentalna uzorka je izračunato - to se obično radi u MA -plot analizi koja se radi kako bi se filtrirali geni koji pokazuju vrlo velike promjene samo zbog njihove ukupne niske ekspresije (1: 4 vs 100: 300).

Odgovorite na vaše Edit

Ne biste trebali uzeti prosjek (aritmetičku sredinu) Ct. Ne skaliraju se linearno s izrazom (pa tako ni obrnuto).

Za bilo koju nelinearnu funkciju $f(x)$:

$$ f (x+y) ne f (x)+f (y) $$

$$ f lijevo ( frac {x+y} {2} right) ne frac {f (x)+f (y)} {2} $$

Nadalje, za konveksnu funkciju:

$$ f (E [x]) le E [f (x)] $$

$$ Jensenova nejednakost $$

gdje $ E [x] $ očekivana vrijednost od $ x $

$ a^x $ je konveksna funkcija u odnosu na $x$ ($ a $ je bilo koji realan broj> 1). Tako možete primijeniti Jensenovu nejednakost na vrijednosti i izraz Ct.


Poređenje promjene nabora (veličina efekta) nakon tretmana

Koristim ovu stranicu posljednjih godinu dana da dobijem savjete o statistikama, ali naišao sam na problem koji ne mogu prevladati. Nije previše komplikovano, ali nisam siguran kako da odredim značaj ili da li su moje ideje tačne. Nadam se da će neki od vas malo pomoći. Hvala unapred.

Imam situaciju da imam dva soja miševa. Kod jednog soja miševa postoji velika učestalost oboljenja, dok kod drugog ima manju učestalost pojave iste bolesti. Bolest je binarna, ili je imaju ili je nemaju.

Ako liječim populaciju bilo kojeg soja miša lijekom A, oboje dobivaju smanjenje učestalosti bolesti. Sojevi miševa sa visokom incidencom imaju pad incidencije bolesti sa 30% -> 15%. Soj miševa niske incidencije bilježi pad sa 10% -> 1% nakon tretmana.

Iz ovog eksperimenta, kada bih pogledao apsolutni pad incidencije, pokazalo bi se da je lijek učinkovitiji u grupi sa visokom incidencijom koja ima pad od 15%, u poređenju sa 9% u drugoj. Međutim, (za mene) je jasno da je lijek daleko učinkovitiji u soju miševa niske incidencije jer je promjena nabora 10 puta veća, dok miševi visoke učestalosti imaju samo 2 puta smanjenje.

Nadamo se da je scenario imao smisla. moje pitanje je:

Ako želim utvrditi je li smanjenje broja puta kod miševa s manjom učestalošću značajno veće nego u slučaju visoke učestalosti, koju vrstu statističkog testa trebam napraviti?

Mislim da bih trebao zapisati (2) transformirati incidencije, a zatim testirati učinak liječenja linearnim modelom ili ANOVA -om. Nisam siguran je li ovo košer, posebno s mojom binarnom varijablom odgovora i bez replika (nemoguće je napraviti replike zbog velikog broja miševa

Svaki vaš prijedlog/odgovor bio bi odličan i visoko cijenjen.


Rezultati, izvoz i spremanje


Za registraciju nakupljanja produkata lančane reakcije polimeraze (PCR) tokom amplifikacije (PCR u stvarnom vremenu) potrebna je posebna oprema, odnosno otkrivanje pojačala koja mogu zabilježiti nivo fluorescencije u reakcijskoj cijevi tokom formiranja amplikona. Kada je vrijeme reakcije završeno, istraživači su u mogućnosti da dobiju grafikone akumulacije DNK. Ovaj pregled razmatra najperspektivnije algoritme za analizu PCR krivulja u stvarnom vremenu i mogućih grešaka uzrokovanih korištenim softverom ili greškama operatora. Uključeni podaci pomoći će istraživačima u razumijevanju značajki metode za dobijanje pouzdanijih rezultata.
Evaluacija PCR podataka u stvarnom vremenu.

Vaerman JL, Saussoy P, Ingargiola I. J. Biol Regul Homeost Agents. 2004. 18 (2): 212-214.
UCL, Cliniques Saint Luc, Bruxelles, Belgija.

Da bi PCR u realnom vremenu bio od velike vrijednosti za svog korisnika, neophodna je neka ideja o pouzdanosti njegovih podataka. Ovdje raspravljamo o nekim problemima povezane s tumačenjem numeričkih PCR podataka u stvarnom vremenu koji su sami sebi dovoljni na analitičku evaluaciju. Prevodimo na jezik molekularne biologije neki od kriterija koji se koriste za ocjenu učinka bilo kojeg novog metoda (linearnost, preciznost, specifičnost, granica detekcije i kvantifikacija).
Statistička praksa u analizi podataka skrininga visoke propusnosti.

Malo N, Hanley JA, Cerquozzi S, Pelletier J, Nadon R.
Nat Biotechnol. 2006 24(2): 167-75.
Univerzitet McGill i Genome Quebec Innovation Center, 740 avenue du Docteur Penfield, Montreal, Quebec, Kanada

Visokopropusni skrining je rani kritični korak u otkrivanju lijekova. Njegov cilj je pregledati veliki broj različitih kemijskih spojeva kako bi se brzo i precizno identificirali „pogodci“ kandidata. Trenutno je na raspolaganju nekoliko statističkih alata za otkrivanje kvalitetnih pogodaka s visokim stupnjem povjerenja. Ispitujemo statističke aspekte predprocesiranja podataka i identifikaciju pogotka za primarne zaslone. Fokusiramo se na brige vezane za pozicione efekte bunara unutar ploča, izbor praga pogotka i važnost minimiziranja lažno pozitivnih i lažno negativnih stopa. Tvrdimo da su potrebna ponovljena mjerenja kako bi se potvrdile pretpostavke trenutnih metoda i predložile strategije analize podataka kada pretpostavke nisu ispunjene. Integracija replika sa robusnim statističkim metodama u primarne ekrane olakšat će otkrivanje pouzdanih pogodaka, što će na kraju poboljšati osjetljivost i specifičnost procesa provjere.


Metode

Affymetrix GeneChip ® preparat

Dozvolili smo osam parova divljih vrsta (AB laboratorijski soj) Danio rerio da se mrijeste u kontroliranim laboratorijskim uvjetima, a potom razdvajaju spolove u razdoblju od 5 dana kako bi spriječili ponovno parenje i standardizirali reproduktivne cikluse. Kako bi se smanjile međuindividualne razlike među ribama, svi ispitanici bili su braća i sestre stari između 4 i 12 mjeseci. Nakon žrtvovanja svakog pojedinca eutanazijom u ledenoj kupki, brzo smo izrezali svo tkivo testisa od mužjaka i svo tkivo jajnika od ženki. Sve metode odobrila je Institucionalna komisija za njegu i upotrebu životinja Univerziteta Texas A & ampM (AUP2005-76). Tkiva su brzo zamrznuta u TRIzol® reagensu (Invitrogen), a ukupna izolacija RNK je izvršena u skladu sa uputstvima proizvođača. Nakon kvantifikacije i procjene kvaliteta, ukupni uzorci RNK iz 3 para testisa, 3 muška tijela, 3 para jajnika i 3 ženska tijela poslani su Univerzitetskom centru u Kentuckyju za mikro označavanje mikroarreja radi označavanja i hibridizacije cRNA na 12 GeneChips ® koristeći standardne Affymetrix protokole ( opisano u Tehničkom priručniku za analizu ekspresije GeneChip®). Ukratko, ukupna RNK je reverzno transkribirana, nakon čega je uslijedila proizvodnja biotinilirane cRNA. Nakon koraka fragmentacije, biotinilirana cRNA je hibridizirana u nizove u periodu od 16 sati. Uzorci su zatim obojeni streptavidin fikoeritrinom i pojačani upotrebom biotiniliranog antitijela protiv streptavidina prije skeniranja.

Analize apsolutnog izraza

GeneChip ® niz genoma zebrice sadrži

15.500 kompleta sondi, svaki set se sastoji od 16 susednih, ali ne preklapajućih parova sondi. Ovi parovi sondi dugački su 25 baza, svaki par sadrži po jednu sondu (PM) koji savršeno odgovara ciljnom transkriptu i drugoj sondi (MM) koji ne odgovara ciljnoj sekvenci na jednom baznom paru. Prisustvo sonde za neusklađenost ima za cilj kontrolu pozadinske buke uzrokovane hibridizacijom molekula koji nisu meta. Da bismo konvertovali informacije o slici niza u vrednosti obilja transkripta, koristili smo četiri različita algoritma "analize apsolutne ekspresije". Svaka od ovih metoda analize korištena je za generiranje posebnog skupa podataka iz date datoteke slike čipa. Primijenili smo standardne procedure normalizacije na neobrađene podatke prije analize, kao što je predloženo u svakom odgovarajućem programskom priručniku. Normalizirane vrijednosti ekspresije za sve apsolutne analize u svim eksperimentalnim replikama, zajedno s ostalim relevantnim detaljima mikrosreza, deponirane su u NCBI Gene Expression Omnibus (GEO) pod pristupnim brojem GSE14979.

Algoritam implementiran u GCOS softverskom paketu (Affymetrix), koristi jednostepenu Tukeyjevu dvotežinsku sredinu od PM i- CT ipreko i parovi sondi, gde PM je intenzitet ćelije sonde za savršeno podudaranje, i CT je "vrijednost kontrasta" [31, 32]. CT najčešće je jednak MM (vrijednost intenziteta ćelije sonde neusklađenosti), ali ako mnogi parovi sonde unutar skupa pokažu MM vrijednosti veće od odgovarajućih PM vrijednosti, za koje se koristi prilagođena vrijednost CT kako bi se uklonilo izračunavanje negativnih vrijednosti izraza [33]. Ovaj algoritam je stoga jednostavan proračun zasnovan na oduzimanju pozadinske buke od pretpostavljenog "istinskog signala".

GC-RMA

Takođe smo koristili algoritam GC-RMA (GC Robust Multi-Array Analysis), koji je implementiran u softverskom paketu za analizu mikromreža GeneSpring GX 7.3.1 (Agilent). GC-RMA algoritam je baziran na linearnom aditivnom modelu i stoga uzima u obzir sve nizove u datom skupu podataka kada procjenjuje vrijednosti izraza za svaki čip, za razliku od GCOS algoritma. Osnovni linearni model opisali su Wu i sur. [34], i pretpostavlja to Y gij= O gij+ N gij+ S gij, gdje Y gijje PM vrijednost intenziteta sonde j u setu sondi g na nizu i. O gijje odgovarajući "optički šum" zbog grešaka laserskog skeniranja, N gijje odgovarajući "nespecifični šum vezivanja", i S gijje veličina proporcionalna stvarnom obilju ciljnog transkripta u uzorku (koji omogućava procjenu "prave" vrijednosti izraza). GC-RMA algoritam koristi mnoge parametre iz posmatranih podataka u svim nizovima za procjenu komponenti N giji S gij, tada odgovara modelu za izračunavanje vrijednosti izraza [34].

PM-MM, samo PM

Dva dodatna pristupa zasnovana na modelu, dostupna u paketu za analizu dChip [35, 36], također su korištena za generiranje vrijednosti izraza. PM-MM model pretpostavlja da za svaku sondu postavljenu u grupi i nizovi, PM ij- MM ij= θ iφ j+ ε ij, gdje PM iji MM ijsu savršeni intenzitet podudaranja i neusklađenosti za par sondi j u nizu i, θ ije indeks izraza za sondu postavljenu u nizu i (vrijednost kamate), φ jje koeficijent koji predstavlja odnos između para sondi j ćelijski intenzitet i stvarna ciljna koncentracija, i ε ijje izraz greške modela [33, 35, 36]. Slično GC-RMA, PM-MM algoritam koristi informacije sa svih čipova u skupu podataka, a zatim je model pogodan za procjenu vrijednosti izraza za svaki skup sonde na svakom čipu. PM-Only algoritam je sličan PM-MM, ali se intenziteti neusklađenosti potpuno zanemaruju u modelu: PM ij= θ iφ j+ ε ij. Ovaj alternativni model stvoren je kako bi se izbjeglo povremeno izračunavanje vrijednosti negativnih izraza kada MM intenzitet sonde je visok u poređenju sa PM intenziteta [35, 36].

Uporedne analize izraza

Da bismo uporedili apsolutne vrednosti ekspresije između različitih grupa tretmana, otkrili različite nivoe transkripta i procenili promene nabora, sproveli smo standardne t-testove koristeći Cyber-T web interfejs [37]. Ovaj pristup je dao 4 seta (jedan po algoritmu apsolutnog izražavanja) rezultata za svako od sljedećih poređenja: muško tijelo naspram ženskog tijela, testis naspram jajnika, testis naspram muškog tijela i jajnik naspram ženskog tijela. Za kontrolu statističkog problema izvedbe

15.000 t-testova po usporedbi, postavili smo stopu lažnog otkrivanja (FDR) od 0,05, kako su opisali Benjamini i Hochberg [38], za svaku analizu. Da bismo odlučili treba li se gen za dato poređenje smatrati "različito izraženim", usvojili smo kriterij "strogog konsenzusa" prema kojem je gen morao pokazati značajnu p-vrijednost prilagođenu FDR-om u sva 4 skupa podataka apsolutne analize. Ovaj postupak je konzervativan, ali opravdan u ime kontrole lažno pozitivnih rezultata.

PCR u realnom vremenu

Koristili smo preostalih 5 uzoraka mužjaka i 5 ženki zebrice da sprovedemo nezavisne testove ekspresijske pristranosti za sedam gena identificiranih kao različito izražene našim analizama mikromreža. Unutar svake kategorije regulisane testisima, obogaćene muškarcima i ženama obogaćene smo nasumičnim odabirom izabrali dva od deset najboljih regulisanih gena. Bili smo u mogućnosti amplificirati gen-specifičan PCR proizvod za samo jedan od odabranih transkripata obogaćenih muškarcima (set sonde 15637.1.S1_at). Unutar kategorije jajnika povećane regulacije, nasumično smo odabrali dva od 200 najboljih regulisanih gena, kako bismo procijenili tačnost rezultata mikromreža za gene koji pokazuju manje upadljive razlike u ekspresiji. Za svaki uzorak ista količina ukupne RNA (1 μg) je obrnuto transkribovana u cDNA koristeći Superscript ® komplet za sintezu prve niti (Invitrogen).

Izvršili smo PCR u stvarnom vremenu koristeći SYBR ® Green PCR Mastermix (Invitrogen) i 2 μl šablona cDNA. Reakcije su izvedene na ABI 7700 PCR aparatu u realnom vremenu (Applied Biosystems) koristeći zadane postavke analize. Svaka pojedinačna reakcija izvedena je u tri primjerka, a kontrole bez šablona su uključene za svaki par prajmera kako bi se potvrdila specifičnost amplifikacije. Serija razblaženja koja uključuje 5 različitih koncentracija šablona je korištena da bi se olakšala metoda relativne standardne krive (primijenjeni biosistemi) za procjenu relativnih nivoa mRNA. Primer sekvence za ciljne gene dizajnirane su korišćenjem Primer Express® 3.0 (primenjeni biosistemi) i dostupne su na zahtev. Dva seta kontrolnih prajmera (predložena u Tang et al. [39]) su korištena za normalizaciju obilja cDNK u svakoj reakciji. EF1α je korišten u poređenjima spolnih žlijezda i tijela, i Rpl13α je korišten u poređenjima muško-žensko. Za svako poređenje izračunali smo interval pouzdanosti od 95% o promjeni srednje veličine, na osnovu procjena nivoa izraza u 5 eksperimentalnih ponavljanja.


Korištenje delta-delta Ct formule za izračunavanje ekspresije gena

Da biste koristili delta-delta Ct metodu, potrebne su vam vrijednosti Ct za vaš gen od interesa i gen za održavanje i za tretirane i za netretirane uzorke. Ako imate više od jednog gena za održavanje, možda bi bilo vrijedno pogledati vodič za analizu qPCR podataka s brojnim referentnim genima.

Evo kako izračunati relativnu ekspresiju gena u 5 jednostavnih koraka.

1. Prosječite vrijednosti Ct za sve tehničke replike

Prvi korak je da se prosječne vrijednosti Ct za tehničke replike svakog uzorka. Dakle, pri izvođenju qPCR -a u duplikatu ili trostruko, na primjer, ove vrijednosti prvo treba usredniti. U donjem primjeru svaki uzorak je izveden u duplikatu (Ct1 i Ct2).

2. Izračunajte delta Ct za svaki uzorak

Sljedeći korak je izračunavanje delte Ct (∆Ct) za svaki uzorak koristeći novostvorene prosječne vrijednosti Ct. Formula za izračunavanje delta Ct prikazana je u nastavku.

∆Ct = Ct (gen od interesa) - Ct (gen za održavanje domaćinstva)

Na primjer, za izračunavanje ∆Ct za 'Kontrola 1‘Uzorak:

∆Ct kontrola 1 = 30.55 – 17.18

3. Odaberite kalibrator/referentni uzorak(e) za izračunavanje delta delta Ct

Sljedeći korak je odlučiti koji uzorak ili grupu uzoraka koristiti kao kalibrator/referencu pri izračunavanju delta-delta Ct (∆∆Ct) vrijednosti za sve uzorke. Ovo je dio koji zbunjuje mnoge ljude. U osnovi, sve ovo ovisi o vašoj postavci eksperimenta.

Uobičajen način za to je samo uskladiti eksperimentalne uzorke i zasebno odrediti relativne omjere ekspresije gena. Ovo je sve u redu s eksperimentima koji imaju uparene parove, kao što je slučaj u eksperimentima sa staničnom kulturom. Međutim, to je teško kada se dvije eksperimentalne grupe razlikuju po n broju i nemaju podudarne parove.

Drugi način odabira kalibratora/referentnog uzorka je odabir uzorka s najvećom vrijednošću Ct, tako da uzorak ima najmanju ekspresiju gena. Na ovaj način će svi rezultati biti relativni u odnosu na ovaj uzorak. Ili, jednostavno možete odabrati samo jedan od kontrolnih uzoraka koji će djelovati kao referentni uzorak.

Ja lično u prosjeku 'Prosječni Ct' vrijednosti bioloških replika kontrolne grupe za stvaranje a "Kontrolni prosjek". To bi značilo da su rezultati prikazani u odnosu na kontrolne prosječne vrijednosti Ct.

Koji god uzorak ili grupu uzoraka da koristite kao svoj kalibrator/referencu je u redu sve dok je to konzistentno tokom analiza i navedeno u rezultatima tako da je jasno. Zapamtite, rezultati proizvedeni na kraju jesu rođak vrijednosti ekspresije gena.

Imajući ovo u vidu, ako želimo da dobijemo ∆∆Ct vrijednosti za svaki uzorak (uključujući i za svaki kontrolni uzorak), prvo moramo procijeniti ∆Ct za 3 kontrolna uzorka:

∆Ct Kontrolni prosjek = (13.38 + 13.60 + 13.68)/3

Napomena, ako su vrijednosti Ct promjenjive, tada bi moglo biti prikladnije koristiti geometrijsku sredinu umjesto gornje aritmetičke sredine. Geometrijska sredina je otpornija na vanjske vrijednosti, u usporedbi s aritmetičkom sredinom. Iz tog razloga, geometrijska sredina se koristi u Vandesompeleovoj metodi ekspresije gena.

Na primjer, ako su vrijednosti Ct za moja tri kontrolna uzorka umjesto toga bile 13,38, 13,60 i 15,80, onda je to dobar razlog da se koristi geometrijska sredina umjesto aritmetičke sredine.

Da biste koristili geometrijsku sredinu, prvo pomnožite brojeve zajedno, a zatim uzmite n -ti korijen te vrijednosti. N je jednostavno broj opažanja u formuli, koji je 3 u ovom primjeru. Dakle, koristeći moj najnoviji primjer, ovo bi bilo:

∆Ct Kontrolni geometrijski prosjek = ∛(13,38 x 13,60 x 15,80)

4. Izračunajte delta delta Ct vrijednosti za svaki uzorak

Sada izračunajte ∆∆Ct vrijednosti za svaki uzorak. Upamtite, vrijednosti delta delta Ct relativne su u odnosu na netretiranu/kontrolnu grupu u ovom primjeru. Formula za izračunavanje delta delta Ct prikazana je u nastavku.

∆∆Ct = ∆Ct (uzorak) – ∆Ct (kontrolni prosjek)

Na primjer, za izračunavanje ∆∆Ct za uzorak Tretirani 1:

∆∆Ct obrađeno 1 = 7.83 – 13.55

5. Izračunajte vrijednosti ekspresije gena nabora

Konačno, da bismo utvrdili ekspresiju gena nabora, moramo to učiniti 2 na snagu negativnog ∆∆Ct (tj. vrijednosti koje su upravo stvorene). Formulu za to možete pronaći u nastavku.

Ekspresija preklopljenog gena = 2^-(∆∆Ct)

Na primjer, za izračunavanje ekspresije gena nabora za uzorak Tretirani 1:

Fold genska ekspresija = 2^-(-5.72)

Na taj način bi se dobila uvijena ekspresija gena od 52,71 za uzorak Tretirani 1. Radnja za sve uzorke izgledat će ovako:

I to je način na koji možete koristiti metodu delta-delta Ct za utvrđivanje ekspresije gena za vaše uzorke.


Zaključak

Svi tokovi rada pokazuju dobru usklađenost s mjerenjima izraza RT-qPCR i nijedan tijek rada ne nadmašuje ostale. Treba napomenuti da je svaki tijek rada otkrio mali, ali specifičan skup gena s nedosljednim mjerenjima ekspresije, reproducibilno identificiranim u nezavisnim skupovima podataka. Ovi geni su obično bili manji, imali su manje egzona i bili su niže eksprimirani u poređenju sa genima sa konzistentnim mjerenjima ekspresije. Pažljiva validacija je opravdana kada se procjenjuju profili ekspresije zasnovani na RNA-seq za ovaj specifični skup gena.


Zaključci

Sve zajedno smo otkrili da 24 h dugo gladovanje utiče uglavnom na nivo strukturnih i izlučenih proteina u jejunumu pilića brojlera. Prema svojim biološkim funkcijama ovi proteini su komponente citoskeleta, uključene u vezivanje i transport masnih kiselina, opći odgovor na stres i transport jona ili vezikula. Svi identificirani proteini citoskeleta (ACTA2, ACTB, KRT14, TPM1) pokazali su povećanu ekspresiju što ukazuje na to da bi ti proteini mogli biti najvažniji u remodeliranju resica i promjenama pokretljivosti uzrokovanim postom. Međutim, neke značajne promjene bile su uočljive u slučaju morfometrijskih parametara tankog crijeva, mali broj izmjerenih uzoraka ne dopušta nam da donesemo bilo kakve snažne zaključke koji povezuju morfometrijske promjene s uočenim proteomičkim promjenama. Drugi identificirani proteini (EXFABP, MAGT1, APOA1, APOA5, MUC6, HSP90A) mogli bi pokazati povećane količine proteina u grupi natašte kao odgovor na stres uzrokovan postom i najvjerojatnije imaju zaštitnu ulogu u održavanju homeostaze tokom posta.


Dostupnost podataka

Ovo istraživanje podržali su Fondacija CHARGE Syndrome Foundation (KS, JAP i SP), Kanadska fondacija za inovacije (CFI SP), Vijeće za prirodna i inženjerska istraživanja Kanade (NSERC SP) i Fondacija za rijetke bolesti (SP). SP ima nagradu za istraživača FRQS Junior 1 i istraživačku stolicu Anna Sforza Djoukhadjian. PJ je podržan od strane CERMO-FC stipendije. KS je podržala stipendija CIHR -a. JAP i NP su viši naučnici FRQS-a, a NP je također primatelj UQAM istraživačke katedre za rijetke genetske bolesti. Autori zahvaljuju dr. S. Lalani, dr. J. W. Belmontu i P. Hernandezu (Baylor College of medicine) za velikodušno obezbjeđivanje limfoblastoidnih ćelijskih linija. Također zahvaljujemo dr. Marie-Claude Bélanger na kritičkom čitanju i vrijednim komentarima o rukopisu Claudia Maios na pomoći oko ekrana protiv droga u C. elegans i Valentin Lemoine, Alexandra Lissouba i Marc Allard za njihovu pomoć u genotipizaciji zebrica.


Pregled aplikacija dPCR -a

Nedavna upotreba dPCR -a obuhvatila je brojne primjene DNK, RNK i epigenetike. Popularna upotreba metode je otkrivanje i kvantifikacija rijetkih genetskih varijanti (npr. varijante s jednim nukleotidom) u mješavinama drugih, preovlađujućih, varijanti iste sekvence. Takva „rijetka“ detekcija sekvence može mjeriti djelovanje mutacija u ctDNA ( 10,), fetalne genetske varijante u neinvazivnom prenatalnom testiranju ( 11,), polimorfizmi donorskog organa kao procjena potencijalnog odbacivanja transplantata ( 12, 13,), kao i rijetki bakterijski genotipovi ( 14,) i otpornost na virusne lijekove ( 15,). Primjer rane direktne kliničke dijagnostičke primjene je mjerenje ctDNK u tekućim biopsijama za usmjeravanje liječenja raka pluća ne-malih stanica ( 16, 17).

dPCR može ponuditi veću preciznost od qPCR -a ( 18,) i daleko je jednostavniji za upotrebu za kvantifikaciju broja kopija zbog binarne prirode u kojoj se particije računaju kao pozitivne ili negativne. Povećana preciznost dPCR-a ( 18,) omogućilo poboljšano mjerenje varijanti broja kopija ( 19, 20,), uključujući pojačavanje gena u neuroblastomu ( 21,) i fetalnu trizomiju neinvazivnim prenatalnim testiranjem ( 22,). dPCR takođe omogućava detekciju retkih događaja ili nivoa tragova sa velikom pouzdanošću jer se samo jedan ili mali broj molekula DNK umnožava u svakoj pojedinačnoj particiji, bez obzira da li eksperiment ima 10 ili 10 000 ciljnih molekula po reakciji. Dok qPCR može otkriti vrlo niske koncentracije mete, kalibracija mjerenja tragova je izazovna. Ovo je jedan od razloga zašto je dPCR istražen kao metoda za mjerenje nivoa tragova u minimalnoj rezidualnoj bolesti ( 23, 24,) i latencija kod virusnih infekcija kao što je HIV ( 25–27).

Analitička osjetljivost mjerenja dvolančanih molekula DNK može se dodatno poboljšati denaturacijom molekula prije razdvajanja ( 28,). Budući da pojedinačni lanci završavaju na različitim pregradama, analitička osjetljivost poboljšana je za dva puta. Druge aplikacije koje iskorištavaju jedinstveno particioniranje dPCR-a uključuju odnose cis-trans veze između dva cilja ( 29–31,) i "drop-off" testove za identifikaciju učestalosti mutacije nepoznate sekvence ( 32), i evaluacija efikasnosti uređivanja gena kada se koriste pristupi poput CRISPR-Cas9 ( 33).

Nadalje, dPCR pruža visoku ponovljivost gore navedenih tehničkih prednosti. To je moguće ako se isti cilj mjeri u različitim laboratorijima ( 34, 35,) koristeći različite testove ili formate testa ( 36,), ili instrumente različitih proizvođača ( 37, 38,). To je također moguće postići i pri mjerenju pročišćene nukleinske kiseline, ali i cijelih bioloških uzoraka u koje treba uključiti preanalitičke korake kao što je ekstrakcija. ( 36, 39,). Ova karakteristika učinila je dPCR popularnom metodom za kvantificiranje referentnih materijala ( 40, 41,), za podršku primijenjenom molekularnom testiranju u kliničkoj dijagnostici ( 42–44,) i testiranje hrane ( 45–47).

Kada su se koristile za provođenje kvantitativnih mjerenja, molekularno genetske metode su u prošlosti primjenjivale masu i mol, u kombinaciji s volumenom, za izračunavanje koncentracije broja kopija. Masa ili mol nisu idealni kada se uzme u obzir velika makromolekula kao što je DNK, a materijali za kalibraciju nukleinske kiseline rijetko su ušli u Međunarodni sistem jedinica (SI) ( 48,). dPCR ima sposobnost brojanja svih netaknutih (jednakih ili većih od amplikona) DNK molekula koji sadrže specifičnu ciljnu sekvencu ( 49,), čime se potencijalno nudi SI sljedivost odbrojavanjem do jedinice jedinice ( 48,). Da bi se maksimizirao potencijalni uticaj takve sposobnosti, uloženi su napori da se harmonizuju i standardizuju najbolje prakse u dPCR (i qPCR) u standardu ISO 20395 ( 50).

Tačnost kvantifikacije za mjerenje broja kopija zavisi od potpunosti molekularnog broja i tačne definicije jedinične zapremine uzorka i ukupne reakcije (tj. Broja particija tačno definisanog volumena). Oba moraju biti dokazana da bi se podržale tvrdnje o sljedivosti SI pomoću dPCR-a. Međunarodna suradnja između nacionalnih metroloških instituta, uz podršku Konsultativnog odbora za količinu tvari: mjeriteljstvo u hemiji i biologiji (CCQM), dovela je do istraživanja koje pokazuje da dPCR zaista može mjeriti s dovoljnom preciznošću za primarnu SI-sljedljivost ( 38, 51,). dPCR je pružio prvi ikada referentni postupak mjerenja nukleinskih kiselina koji je prihvatio Zajednički odbor za sljedivost u laboratorijskoj medicini (JCTLM) ( 38,) i dPCR je uključen kao primjer referentnog mjernog postupka višeg reda u novom izdanju smjernice ISO 17511 o mjeriteljskoj sljedivosti vrijednosti dodijeljenih kalibratorima i kontrolnim materijalima za dijagnostičke metode ( 52).

Potencijal dPCR -a da omogući nove mogućnosti istraživanja i podrži sljedivost u širem području molekularno -genetskih mjerenja trebao bi imati veliki utjecaj na točnost mjerenja nukleinskih kiselina u cjelini. Međutim, istraživači i proizvođači moraju postupati oprezno kako bi bili sigurni da su razumljive nijanse koje mogu utjecati na ova mjerenja. Ono što slijedi su neki koraci koje treba razmotriti na ovom putovanju.


Diskusija

U ovom smo radu opisali detaljan statistički model za staničnu RNK i egzogene spike-e u uzorku pripremljenom od fiksnog broja ćelija kojima je dodana populacija spike-molekula poznatog broja. U kontekstu ovog modela, argumentima maksimalne vjerovatnoće izvedeni smo, metoda kalibracije za RNA-seq podatke koja procjenjuje staničnu molekularnu brojnost RNK. Iako naše molekularno obilje z-vrijednosti su nominalne, samo su jedan korak udaljene od apsolutnog molekularnog obilja. Jednom relativni koeficijent prinosa za transkript i, αi, mjeri se u zasebnim eksperimentima, apsolutna molekularna brojnost u biblioteci j, ni,j biće poznato preko jednačine: ni,j = zi,j/αi.

Naša metoda koristi eksplicitni statistički model za spike-ins, najjednostavniji razuman, naime da se broj spike-in za datu biblioteku uzorkuje iz zajedničke multinomske distribucije sa fiksnim parametrom proporcija za svaki spike-in molekul u svim bibliotekama/uslovima za fiksni protokol. Kao posljedica toga, broji se unutar svake spike-in biblioteke, bez obzira na to stanje, predstavljaju tehničku repliku. Model spike-in smo kvantitativno procijenili na više načina (slika 2 i slika S2). Otkrili smo da se molekuli spike-in usko pridržavaju multinomskog modela pod uvjetom da spike-in biblioteka premašuje otprilike 250.000 čitanja. Drugim riječima, naši rezultati podržavaju one iz [19]: molekule sa spiketom doprinose povećanju broja spikeova u biblioteci spike-in-a, ugrađene u cjelokupnu biblioteku RNA-seq, na način koji je nezavisan od nativne RNK . A caveat is that we don’t know for sure if deviations of spike-in counts from the multinomial model that we observed are a consequence of some sort of poorly understood noise that is particularly prominent in spike-in libraries of low size, or if the unaccounted for noise was unrelated to library size per se.

We adopted a multinomial mode for spike-in noise, but our model could be extended with a more accurate model. Technical noise in spike-in counts has been studied and modeled recently [36], and we present similar analysis and modeling in S2 Fig and S5 Appendix. Although the proper experimental technique was followed in our study to minimize these errors, pipetting and dilution errors can not be completely eliminated. Pipetting, dilution, and cell number errors may have been sources contributing to the very high variation between experiments that was observed in previous attempts to incorporate spike-ins as normalization standards [42]. [20] however demonstrate technical robustness in the performance of spike-ins in sensitive single cell RNA-seq experiments. Our data agree with the assessment of [20].

We have shown however that our method, especially when supplemented with RUVr [15] correction or our own δj correction, is able to compensate for this source of unavoidable technical variability. Our model could be extended and improved in the future by incorporating a different model for spike-ins. Nevertheless, our model allows for powerful, genome-wide, parametric testing of hypotheses of various sorts concerning nominal RNA abundances, z-values that are explicitly related to absolute cellular molecular abundance (transcripts per cell or attomoles).

We applied our method, to quantify RNA abundance and to test for differential gene expression, using data from two studies with different library preparation protocols, and in species from different kingdoms: a growth rate study in yeast, and a low cell count differentiation study in Ciona. We found global changes in gene expression in both systems: a global increase in transcript abundance with growth rate in yeast, and a global decrease in the Fgfr DN embryonic cell type in Ciona. Reanalysis of the raw data with other algorithms that hold the assumption of equivalent transcriptome sizes, as expected, were not able to reveal these global transcriptome trends.

From relative yield coefficients to absolute cellular molecular abundance

Our focus in this paper is on deriving a nominal cellular molecular abundance that can be converted to absolute abundance by the transcript’s relative yield coefficient, which could be measured in separate experiments. In this study however, we do not attempt to measure the relative yield coefficient values, or estimate the absolute number of molecules per cell for each transcript within a condition. The current work allows us to say, that, for example, RNA transcript A has x times more molecules per cell, on average, in condition 1 compared to condition 2, even if the corresponding RNA-seq libraries were prepared in different batteries of experiments, different studies, or even prepared in different laboratories. Such a conclusion about what might be called, an absolute ratio of abundances, can be drawn without knowing the relative yield coefficient of transcript A. In the section that follows, we discuss the links between our work and methods by which these relative yield coefficients might be measured.

In this manuscript we offer RNA abundance estimates that are proportional to absolute transcript abundance. For this we assign a (relative) yield coefficient value of 1 to a reference spike-in, arbitrarily chosen from among those that contribute a sizable fraction of total spike-in counts. Our nominal abundance of an RNA molecule is based on the temporary assumption that this molecule has the same yield coefficient as the reference spike-in. If our calibration method is supplemented with additional data on the effect that a broad range of transcript physicochemical characteristics has on library preparation and sequencing, a more realistic relative yield coefficient could be assigned to each RNA molecule of interest.

A technical statement of the outstanding problem is that our inferred nominal abundances zi,j do not disentangle true absolute molecular abundance, ni,j, and the corresponding relative yield coefficient, αi because, by definition, zi,j = αi ni,j. However, once one measures absolute cellular abundance of transcript i in a preparation of cells from which library j was derived (ni,j), the relative yield coefficient becomes known, at, least in the idealized situation ignoring various sorts of noise, because αi = zi,j/ni,j. Na primjer, ni,j might be measured by single-cell Fluorescence In Situ Hybridization (FISH) methods, performed on a large population of cells from which library j was derived.

Statistical methods taking into account biological noise and technical noise could be used to compute a confidence interval for αi, pod uslovom ni,j could be estimated. Likelihood methods could be used to integrate data across several libraries in the estimation of αi. In principle, once αi is estimated from one or more libraries and a population of cells from which those libraries were derived, this estimate could be used for other libraries (prepared using the same protocol), past, present, and future, to allow the determination of absolute cellular molecular abundances of transcript i.

Modeling, like that presented in S6 Appendix and S2 Fig, and like that of [17] could also play a vital role in estimating relative yield coefficients, especially if a wider array of synthetic spike-ins covering a large gamut of physical properties were designed and utilized. Our methods have the potential of facilitating statistical modeling of RNA counts because of the explicit relationship between our nominal abundances and absolute molecular, cellular abundances of RNA. In principle, variation in counts as a consequence of true biological variation in random attomoles, N, and variation in counts due to variation in relative yield coefficient across transcripts with nearly identical mean abundances, μN, could be disentangled.

Our approach lays the groundwork for investigating, testing, and modeling how the physical properties—e.g., length, GC content, folding energy—determine the relative yield coefficient of spike-ins and native RNA transcripts alike. Empirical measurements of relative yield coefficients, as we have defined them, and biophysical modeling could facilitate progress in making the connection between sequencing counts and the underling molecular cellular abundances of the corresponding transcripts.

Relationship to previous studies

Our work follows up on and extends the work of [15, 16, 36, 43, 44]. Our inference method is linear and global for each library, like that of [19], [36] and [45]. We showed that our global (library specific) νj calibration constants are closely related to the Anders and Huber-like “technical” size factors of [36], which are based on spike-in counts. We called their normalization constants , and we showed that they are proportional to our νj normalization constants in the cases of 2 of our data sets with large library sizes, as predicted by theory (S8 Appendix). An important difference is that the calibration constants are on a dimensionless scale, on the order of 1, and do not allow one to infer absolute abundances of transcripts once their relative yield coefficients become known.

[16] applied loess normalization to ERCC spike-in counts to derive a normalization function that they then applied to the counts corresponding to native RNA. Our analysis and rigorous testing of our theory and methods suggest that a local nonlinear transformation, such as loess normalization of the count data is not needed for our RNA-seq data. It seems likely that any local nonlinear fitting of counts to make replicate spike-in libraries as similar as possible would involve overfitting the data.

Our work has some important features in common with the HTN method of [46], particularly, the assumptions underlying their Eq (1) and our Eqs S1 Appendix (2) and (3). These equations explicitly allow for differences in total RNA abundance across conditions. In addition, both normalization methods are global and linear. However the HTN method of [46]: relies on having de facto housekeeping genes rather than experimentally-added spike-ins does not include a model for biological noise assumes that relative yield is simply proportional to transcript length is focused primarily on testing for differential gene expression and does not provide estimates of absolute RNA abundance. Their global scale factor for a given library is determined by minimizing the sum over spike-ins of the square differences between the spike-in counts in that library and those of a library chosen to be the reference library. That scale factor is then used for the native RNA counts within the same non-reference library. It can be shown that this library-by-library normalization procedure, in the limit as library size (native RNA and spike-ins) approaches infinity, will give an abundance measure that is proportional to our z abundance values based on νj normalization.

A quite different suite of normalization methods, called RUV (removal of unwanted variation), was introduced by [15, 36, 43, 44] and applied with great effect to many different data sets. The methods involve singular value decomposition (SVD) variant of factor analysis to compute a factor matrix W, which is used to model nuisance sources of variation that are unrelated to the experimental design. The factor matrix W is included, in addition to a design matrix, in a generalized linear model for normalized counts. One qualitative way of thinking about the W matrix is that is adds columns to the original design matrix for explanatory variables that one didn’t originally know about. Although this method is widely effective at reducing unwanted variation in RNA-seq data, it does not allow one to infer absolute cellular molecular RNA abundances, even if the factor matrix is computed based on spike-ins or an invariant gene set (S8 Appendix), as the authors are well aware. The simple reason is that proportion of spike-in count is tightly correlated with the biological phenomenon of interest the change of total RNA abundance with condition. However, we showed that results of our maximum likelihood normalization method can be improved, with respect to clustering and detection of differential gene expression, by applying an an RUV method based on residual, RUVr (RUVSeq package [15]) after νj normalization. We obtained closely similar results by a simpler method involving a correction factor δj for each library that was based on our discovery in a dilution study with technical replicates that we seem to have some noise in the actual overall amount of spike-ins added to the cellular RNA. We tentatively ascribed these to dilution/volume errors in handling the stock spike-in mixture. This finding highlights the importance of replacing pipetting methods for handling the spike-ins with more accurate robotic methods.

Zaključak

The continuing discovery of examples in which there are gross transcriptome differences between cellular states, has established a need for spike-in controls in RNA-seq experiments [19]. Despite some criticisms [15], external RNA spike-ins have been adopted in several recent studies alongside methods developed to use them for RNA-seq quantitation [16, 19, 36, 46, 47].

The model presented in this work lends itself for both absolute and relative RNA quantitation, dependent on the experimental ability to accurately isolate a fixed number cells for library preparation. In both cases, we offer evidence that our approach provides reproducible results in a wide variety of conditions and has a strong predictive power. In conclusion, the presented model allows for improved unbiased RNA-seq quantitation in any experimental setup using external RNA spike-ins.


Pogledajte video: Postupak mjerenja zasićenja krvi kisikom (Oktobar 2022).