Informacije

Negativna vrijednost linearne ekspresije gena u mikro nizovima

Negativna vrijednost linearne ekspresije gena u mikro nizovima


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Počinjem da koristim mikromreže i možda je ovo glupo pitanje:

Koristeći Illumina mikronise, linearna ekspresija gena može biti negativna? Ili su možda uvedeni neki artefakti?

I, u ovom slučaju, kako ih ispraviti? Sa skaliranjem (dodavanjem apsolutne vrijednosti minimalne negativne vrijednosti) ili podovima (pretvaranjem negativnih vrijednosti u nule)?

Hvala


Nisam lično upoznat sa nizovima Illumine, ali mogu ovde dati neke beleške. Ova veza je rad koji posebno opisuje kontrole kvaliteta niza. Ova prezentacija opisuje proračun intenziteta u bioprovodniku.

Odgovor je da: ponekad ćete pronaći negativne brojeve. Trebali bi biti rijetki. Brojevi intenziteta sa skenera koji u suštini snima sliku fluorescencije zrna na staklenom stakalcu i pokušava oduzeti pozadinski signal.

Pozadina je tipičan nivo signala koji vidite na perli bez vezanog uzorka DNK za nju. Čak ćete i tamo osvijetliti neke piksele.

U ekspresionim mikroredovima ovo nije savršen sistem jer svako zrnce ima različitu nukleotidnu sekvencu na sebi. Svaka kuglica ima specifičnu sekvencu DNK koja ima nespecifično vezivanje koje je prilično jedinstveno na slajdu. Odnosno, oligomer na perli mogao bi se snažno vezati za DNK iz vašeg uzorka, što nije njegov obrnuti komplement u različitim stupnjevima.

Mislim da se dogodilo da će se u nekoliko slučajeva pronaći kuglice koje imaju manje fluorescencije od pozadinskih kontrola na slajdu. Moguće je da sonda ima grešku u dizajnu, ali općenito bih pretpostavio da negativan broj znači da u uzorku za tu oligo nema detektirane ciljne cDNA.

Vjerovatno ne bih pretvorio broj u nulu, ali vjerovatno biste to mogli sami sebi opravdati u nekim slučajevima. Većina eksperimenata s razlikama je logaritam omjera pa nula nije veliki broj u tim slučajevima.

@Lukeovi komentari su dobro izrečeni.

Mislim da negativne vrijednosti i dalje mogu predstavljati signal zbog varijance efekata ovisnih o sekvenci za potrebe skaliranja i eksperimenata razlika. Ali u svakom slučaju bih ih smatrao nultim signalom. Vjerovatno postoje geni koji se stalno izražavaju na ili ispod praga detekcije, što nije nula informacija, tako da broj ima neku vrijednost.


Transcriptomics

■ Metoda i paket analize značajnosti mikročipka (SAM)

SAM je neparametarska metoda zasnovana na permutaciji koja je predložena posebno za analizu podataka mikročipova (Tusher et al., 2001). On izračunava empirijsku stopu lažnih otkrića (FDR) slučajnom permutacijom oznaka klasa. Permutacija generira nultu distribuciju, jer se pretpostavlja da slučajnost uklanja sve biološke učinke. Stoga, on pruža način za kontrolu lažnih pozitivnih rezultata pod različitim pragovima kada se više gena analizira istovremeno u nizu. SAM paket može rukovati i uparenim i neuparenim podacima. Pokreće se na vrhu R statističkog paketa i ima excel interfejs koji koristi excel dodatak.


Reference za analizu podataka izraza mikromrajeva

Dimenzija i složenost podataka o ekspresiji sirovih gena dobivenih oligonukleotidnim čipovima, pjegavim nizovima ili bilo kojom drugom tehnologijom stvara izazovne analize podataka i probleme u upravljanju podacima. Ovim izazovima se na ograničen način mogu odgovoriti postojeći softverski sistemi i metode analize u rukama krajnjih korisnika. Međutim, uvjereni smo da je potrebno mnogo aktivnije znanstveno djelovanje. Očekujemo da će, široko definirana, bioinformatika obuhvatiti statistička i biometrijska pitanja eksperimentalnog dizajna, analize podataka, grafike i modeliranja, te računska pitanja koja se tiču ​​efikasnih algoritama za različite zadatke učenja, poput klasifikacije i grupiranja.

Podaci o mikročipovima mogu se analizirati pomoću nekoliko pristupa (Claverie, 1999). Metode grupiranja (tj. Učenje bez nadzora) široko se koriste i imaju sposobnost otkrivanja koordiniranih obrazaca izražavanja iz zbirke mikroredova (npr., Eisen et al. 1998 Getz et al. 2000 Tibshirani et al. 2000 Dudoit, Fridlyand et al. 2000 Kerr i Churchill 2000a). Upotreba standardnih metoda grupiranja je najprikladnija kada mikronizovi nastaju iz nekog zajedničkog izvora ćelije, na primjer iz uobičajenog tipa tkiva životinja u nekom kontroliranom križanju. Poboljšanja mogu biti potrebna kada drugi izvori varijacija utječu na mikro nizove (van der Laan i Bryan 2000). Metode klasifikacije (tj. nadgledano učenje) pokazale su se vrlo korisnim za identifikaciju obrazaca ekspresije gena koji se mogu povezati s kvalitativnim fenotipovima bolesti (npr. Golub et al. 1999) i za klasifikaciju gena prema njihovoj funkcionalnoj ulozi (Brown et al. 2000). Srodne metode multivarijantne statističke analize, poput onih koje koriste dekompoziciju singularne vrijednosti (Alter et al. 2000 West et al. 2000) ili višedimenzionalno skaliranje, mogu biti učinkovite u smanjenju dimenzija objekata koji se proučavaju.

Pojavljuju se statističke metode koje uzimaju u obzir višestruke izvore varijacija kada se pokušavaju prikupiti informacije iz mnogih mikronizova i identificirati geni koji pokazuju značajnu diferencijalnu ekspresiju između tipova stanica. Jedan pristup je razlaganje odgovarajuće transformiranog mjerenja izraza kao linearne kombinacije efekata iz različitih izvora varijacije (Kerr et al. 2000). Ovo je u osnovi ANOVA za mikromreže. U kontekstu dvogrupnog poređenja sa replikacijom Dudoit, Yang et al. (2000) predložili su upotrebu testiranja permutacije i podešavanja p-vrijednosti kako bi se objasnio problem višestrukog testiranja. Lin et al. (2001) opisuju neparametarsku metodu koja je prikladna za otkrivanje diferencijalne ekspresije za transkripte male količine. Alternativno, pristup mješovitog modela može se koristiti za direktno ispitivanje vjerovatnoće da je određeni gen zaista izražen (Lee et al. 2000) ili vjerovatnoće da je gen zaista različito izražen između dva stanja (Newton et al. 2001 Efron et i dr. 2001). Funkcionalni obrasci izražavanja identificirani takvim statističkim proračunima bit će potkrijepljeni laboratorijskim ispitivanjem radi provjere nalaza (usp. Nadler et al. 2000).

Iako su metode analize bile glavna briga u većini istraživanja bioinformatike do sada, pitanje eksperimentalnog dizajna je kritično. Primjena replikacije, na primjer, u kontroliranim eksperimentima može značajno poboljšati moć otkrivanja različito eksprimiranih gena (Kerr i Churchill 2000b, Lee i sur. 2000). Naš interni pregled zahtjeva za podršku mikročipima uključivat će pažljivo ispitivanje razmatranja eksperimentalnog dizajna.

Analiza mikročipova obično koristi intenzitete izraza prilagođene pozadini (PM-MM za Affymetrix čipove). Međutim, ovo može stvoriti probleme s negativnim prilagođenim vrijednostima, budući da se log-transformacija često primjenjuje na te prilagođene vrijednosti. To je potaknulo ad hoc procedure (usp. Roberts et al. 2000). Međutim, proizvoljno rukovanje genima niske ekspresije je nezadovoljavajuće jer oni mogu biti najzanimljiviji, npr. transkripcijski faktori i receptori. Umjesto toga, Lin et al. (2001) se zalagao za približnu normalnu transformaciju rezultata izraza prilagođenog pozadini koji omogućava korištenje svih podataka (vidi i Efron et al. 2001). Čini se da ovi normalni rezultati imaju bolja svojstva za grupisanje i dobro se ponašaju za zaključivanje o diferencijalnoj ekspresiji.

Obrasci ekspresije gena dokazani analizom podataka samo su početak. U mnogim slučajevima, veće biološko razumijevanje može se postići korištenjem podataka o ekspresiji u kombinaciji sa podacima o sekvenci (Craven et al. 2000), podacima o putevima (Zien et al. 2000) i biomedicinskim tekstualnim izvorima (Shatkay et al. 2000). Osim toga, može uključivati ​​i izgradnju prediktivnih modela iz različitih izvora podataka (Craven et al. 2000) i razvoj automatiziranih metoda za iskorištavanje tekstualnih i web podataka (Craven i Kumlien, 1999. Shavlik et al. 1999.).


Oncomine 3.0: geni, putevi i mreže u kolekciji od 18.000 profila ekspresije gena raka.

Odsjek za patologiju, Medicinski fakultet Univerziteta u Michiganu, Ann Arbor, MI 48109-0940, SAD.

DNK mikronizovi su široko primijenjeni u analizi transkriptoma raka, međutim, većina takvih podataka nije lako dostupna ili uporediva. Nadalje, nekoliko važnih analitičkih pristupa primijenjeno je na analizu mikročipova, međutim njihova je primjena često ograničena. Kako bismo prevladali ta ograničenja, razvili smo Oncomine, bioinformatičku inicijativu koja ima za cilj prikupljanje, standardiziranje, analizu i dostavu podataka o transkriptomu raka biomedicinskoj istraživačkoj zajednici. Naša analiza je identifikovala gene, puteve i mreže deregulisane u 18.000 mikronizova ekspresije gena raka, koji obuhvataju većinu tipova i podtipova raka. Ovdje pružamo ažuriranje inicijative, opisujemo bazu podataka i module za analizu i ističemo nekoliko značajnih zapažanja. Rezultati ove sveobuhvatne analize dostupni su na http://www.oncomine.org.

Pitanja pouzdanosti i reproducibilnosti u mjerenjima DNK mikročipa.

Dr. Sorin Drahici je objavio izvrsnu recenziju. Istorija mikročipova, vrste, tehnologija, primena. Biomarkeri i dijagnostički alat. Korelacija sa PCR. Odnosi su pouzdaniji od nivoa izraza. Zamke zamašnih eksperimenata, usklađivanje sondi, hibridizacija DNK-RNK, varijante spajanja, presavijanje i unakrsna hibridizacija. Reference su sažete, ali izvrsne.

Trendovi Genet. 2006. februar 22(2):101-9. Epub 2005. prosinac 27. Linkovi


3. Primjena na eksperimentalne podatke

(i) Opis podataka

Da bismo analizirali performanse BE u usporedbi s BN i BL, koristili smo dva skupa podataka generirana u prethodnom dvobojnom cDNA studiji mikromreža provedenoj za identifikaciju gena reguliranih sigma faktorom σ B u bakteriji Listeria monocytogenes (Kazmierczak et al., Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003). U toj studiji, an L. monocytogenes sigB nulti mutant (kojem nedostaje σ B protein) i roditeljski soj sa netaknutim sigB gen (divlji tip) bili su izloženi dvama stresnim uslovima, naime osmotskom stresu i stacionarnoj fazi, kako bi se identificirali geni sa nivoima transkripta na koje utiče sigB brisanje pod ova dva uslova. Za svako stresno stanje, dva nezavisna izolata RNA (biološke replike) i za divlji tip i za sigB mutantne ćelije su zamijenjene bojama za ukupno četiri niza po stresnom stanju. Svaki niz je uključivao 211 test gena i brojne nehibridizirajuće i normalizacijske kontrole (za detalje vidi Kazmierczak et al., Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) uočeni u tri primjerka. Većinu (166) gena uključenih u niz identificirali su pretraživači promotora skrivenog Markovljevog modela kao da im prethodi navodni σ B -ovisni promotor, dok su neki geni (36) uključeni zbog prijašnjih izvještaja o njihovoj uključenosti u virulenciju ili odgovor na stres. Kako je σ B pozitivan regulator ekspresije gena od posebne važnosti za regulaciju gena za odgovor na stres i virulenciju, očekuje se da će većina gena u ova dva eksperimenta pokazati veće nivoe transkripta u soju divljeg tipa u odnosu na sigB delecijski soj.

U svojoj analizi, Kazmierczak et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) su smatrali sve pojedinačne tačke kao ponavljanja, generišući 24 tačke podataka za svaki gen (3 tačke po genu×4 niza×2 kanala po nizu), odnosno korelacija između tehničkih replika nije razmatrana. Izvijestili su o nalazima za 208 od 211 gena za testiranje jer su tri gena primijećena dva puta. Prije analize, izvršena je normalizacija srednje vrijednosti unakrsnih slajdova (bez korekcije pozadine) i postavljanje podova. Analiza programom značajne analize mikročipova (SAM) (Tusher et al., Referentni Tusher, Tibshirani i Chu 2001) identifikovali su 51 (25%) i 41 (20%) gen sa najmanje 1,5 puta različitim statistički značajnim ekspresijama pod osmotskim stresom i uslovima stacionarne faze, respektivno.

Prije naše analize dva skupa podataka od 211 gena, izvršili smo korekciju pozadine i normalizaciju. Srednji intenzitet fluorescencije u pozadini obično se preporučuje za korekciju pozadinske buke zbog njihove robusnosti prema vanjskim vrijednostima. Mi smo, međutim, koristili srednje pozadinske intenzitete jer je raspodjela srednjih pozadinskih intenziteta imala bimodalnu distribuciju pri čemu su neke točke imale nultu pozadinu dok su druge bile u višem rasponu intenziteta (iznad 2 8 ) (vjerovatno zbog podešavanja ili ograničenja korišteni laserski skener).

Činilo se da su dvije pozadinske procedure ispravne za podatke. Prvi, normalno-eksponencijalni model korekcije pozadine konvolucije (NeBC) (izveden sa pomakom od 100), uključuje prilagođavanje konvolucije normalne i eksponencijalne distribucije intenzitetima prednjeg plana koristeći intenzitete pozadine kao kovarijantu (također se naziva i normexp metoda u Smyth, Reference Smyth, Gentleman, Carey, Dudoit, Irizarry i Huber 2005). Drugi korišteni postupak bila je multiplikativna korekcija pozadine (MBC). Ovo je novi pristup koji uključuje logaritamsku transformaciju očitanja intenziteta prije korekcije pozadine i pokazalo se (kroz niz primjera) da je superiorniji od aditivne korekcije pozadine i bez korekcije pozadine (Zhang et al., Referenca Zhang, Zhang i Wells 2006). Zato što MBC navodno daje manje lažnih pozitivnih rezultata od konvencionalne aditivne korekcije pozadine (Zhang et al., Referenca Zhang, Zhang i Wells 2006) i zbog toga što se njegove performanse nikada nisu uspoređivale s NeBC -om, u našoj smo studiji koristili (i usporedili) oba modela korekcije pozadine.

Normalizacija prikladna za podatke bila je Lowesova normalizacija (Cleveland & Devlin, Reference Cleveland and Devlin 1988), sa povećanjem težine pozadine i kontrolnih tačaka normalizacije, za koje se zna da nisu DE (http://bioconductor.org/packages /1.8/bioc/vignettes/limma/inst/doc/usersguide.pdf). Primjena dvije procedure korekcije pozadine (NeBC i MBC) na svaki od dva skupa podataka o stanju naprezanja (osmotski stres i stacionarna faza) dala je ukupno četiri stvarna skupa podataka modela korištena u našim analizama.

(ii) Rezultati

U sva četiri skupa podataka modela, normaliziran i pozadinski ispravljen dnevnik2 omjeri između vrijednosti ekspresije gena u divljim i mutantnim stanicama (Y gij) raspoređeni su asimetrično oko nule i jako nagnuti udesno. Ovo je bilo očekivano jer se očekivala pojačana regulacija u većini testiranih gena. Stoga je bilo razumno pretpostaviti da distribucija srednjih ekspresija DE gena slijedi EVD. Stoga se BE metoda može primijeniti za zaključivanje o diferencijalnom izrazu.

Kritično pitanje u metodologiji integracije MC -a, koja je u osnovi BE metode, je određivanje broja iteracija koje se mogu sigurno koristiti kao osnova za zaključivanje. Koristili smo 50 000 ponavljanja jer su pružili razumnu tačnost približnih statističkih podataka o BE. Postignuti MCSE varirali su za različite gene i modelske skupove podataka. Medijane, nakon kojih slijede rasponi u zagradama, postignutih MCSE -a bile su 0,05 (0,01-00,42) i 0,03 (0,01-00,02) za skupove podataka o osmotskom stresu korigirane pomoću NeBC -a i MBC metode, odnosno 0 · 38 (0 · 02–0 · 92) i 0 · 18 (0 · 02–0 · 52) za skupove podataka u nepokretnoj fazi korigovane NeBC i MBC metodama. U sva četiri skupa podataka modela, MCSE su bili najniži (& lt0 · 1) za gene s vrijednošću BE statistike oko 0.

Za svaki skup podataka modela, gen-specifične BN, BL i BE statistike su aproksimirane. Biološko značenje identificiranih gena DE je važno. Stoga, za svaki od četiri skupa podataka modela na slici 1, prikazujemo vrijednosti BN, BL i BE statistike, iscrtane prema ocjenjivačima kontrasta iz linearnih modela () (također prevedene u promjene nabora, za intuitivnije tumačenje) i protiv prethodnih rezultata Kazmierczaka et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003). U svakom skupu podataka modela, geni koji su rangirani vrlo nisko sa BE statistikom imaju promjenu nabora ispod 1. U isto vrijeme, BN statistika visoko je rangirala neke od gena sa vrlo malom promjenom nabora, što pogrešno sugerira smanjenje vrijednosti. BL statistika dala je dvosmislene rezultate s visokim vrijednostima za većinu gena, posebno u podacima stacionarne faze. Treba napomenuti da smo za aproksimaciju BN i BE statistike fiksirali pDE na one prijavljene u Kazmierczak et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003). Postavljanje pDE -a na različite vrijednosti promijenilo bi BN i BE vs. parcele za promjenu preklopa. Smanjenje pDE -a pomjerilo bi parcele udesno i dolje, dok bi povećanje pDE -a pomaklo ulijevo i gore na x- i y-osovine, respektivno.

Slika 1. The BN (Lonnstedt & amp Speed, Reference Lonnstedt and Speed ​​2002 Smyth, Reference Smyth 2004), BL (Bhowmick et al., Referenca Bhowmick, Davison, Goldstein i Ruffieux 2006) i empirijska Bayesova statistika EVD modela mješavine (BE) ucrtana prema ocjenjivačima kontrasta iz odgovarajućih linearnih modela na nivou gena, 'alpha_g' (označeno kao u tekstu), također prevedeno u preklop promjene (FC), a protiv rezultata koje je izvijestio Kazmierczak et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003). 'K' i pripadajuće pravo y-os pokazuje da li je Kazmierczak et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) naveli su gen kao DE („da“) ili ne („ne“). 'NeBC'=normalno-eksponencijalna metoda korekcije pozadine konvolucije. ‘MBC’ = multiplikativna metoda korekcije pozadine. Dvije vodoravne isprekidane linije (obuhvaćaju zasjenjenu površinu) označavaju 5. i 95. percentil OT statistike BE procijenjene za FDR fiksnu na 0. 'FNR = (,)' označava lažno negativnu stopu (5. i 95. percentil) povezanu sa OT.

Tablica 1 prikazuje karakteristike podataka i vrijednosti hiperparametara procijenjenih za svaki od četiri skupa podataka modela. Nejasni rezultati BL metode vjerojatno su posljedica, barem djelomično, vrlo velike procijenjene vjerojatnosti da je gen DE (w= 1 Tabela 1). Prethodne distribucije varijance izgledaju prilično stabilne među BN, BL i BE metodama, osim otprilike dvostruke vrijednosti parametra skale procijenjene za BL metodu u usporedbi s onom procijenjenom za BN i BE metode. Suprotno tome, prethodne varijanse se značajno razlikuju između metoda pozadinske korekcije, budući da su uže za podatke korigovane pomoću MBC, što može objasniti glatkije dijagrame BN, BL i BE statistike nakon MBC. Takođe, zanimljivo, korelacija između tehničkih replika ima tendenciju da bude veća nakon NeBC nego MBC, što pokazuje razliku između ova dva postupka.

Tablica 1. Definicije parametara modela i hiperparametara u empirijskom Bayesovom EVD modelu mješavine (BE), te modeli Lonnstedta i amp Speed ​​(referentni Lonnstedt i Speed ​​2002) izmijenili su Smyth (Referenca Smyth 2004) (BN) i Bhowmick et al. (Referenca Bhowmick, Davison, Goldstein i Ruffieux 2006) (BL)

a NeBC = normalna-eksponencijalna metoda korekcije pozadine konvolucije b MBC=multiplikativna metoda korekcije pozadine c DE = različito izraženo d EVD=distribucija ekstremnih vrijednosti e IG=inverzna gama distribucija f N = normalna distribucija g L=Laplaceova distribucija h w= vjerovatnoća da je gen DE procijenjen kao dio BL metode (imajte na umu da BN i BE statistika koristi fiksni, korisnički definirani pDE).

U BE statistici, prirodni izbor optimalnog praga (OT) iznad kojeg bi se gen mogao smatrati DE je 0. Međutim, stvarni OT ovisi o nametnutim kriterijima, poput cijene lažno pozitivnog i lažno negativnog. Tipičan pristup odabiru pravila za tumačenje statističkog testa je kontrola vjerojatnosti greške tipa I uz održavanje određene snage. Razborit, moćan i jednostavan za tumačenje (Verhoeven et al., Referenca Verhoeven, Simonsen i McIntyre 2005) metoda za kontrolu greške tipa I kada se izvodi više statističkih testova je stopa lažnog otkrivanja (FDR) (Benjamini & amp Hochberg, Reference Benjamini i Hochberg 1995). FDR je očekivani udio grešaka među genima odabranim za DE. Kako niska FDR često dolazi po cijenu niske osjetljivosti ili snage (tj. Visoke lažno negativne stope (FNR)), njih bi trebalo kontrolirati zajedno (Pawitan et al., Referenca Pawitan, Michiels, Koscielny, Gusnanto i Ploner 2005). Jer Kazmierczak et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) uzimajući u obzir gene koji su bili unaprijed odabrani za njihovu očekivanu diferencijalnu ekspresiju, odabrali smo FDR=0, tj. nije bilo prihvatljivih lažnih pozitivnih rezultata. OT za BE (5. i 95. percentil) određen je simulacionom analizom za svaki od četiri skupa podataka modela (pretpostavljajući da su pDE-i prijavljeni u Kazmierczaku) et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) su tačna), i prikazana je na slici 1, zajedno sa pridruženim FNR-om. Geni čija je BE statistika bila iznad 95. percentila OT-a mogu se sa velikom sigurnošću smatrati DE. Geni sa BE statistikom između 5. i 95. percentila OT će vjerovatno biti DE. BE je visoko rangiran (iznad 95. percentila OT) neki od gena koje Kazmierczak ranije nije identificirao et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003), dok je nekoliko gena koje je Kazmierczak ranije prijavio kao DE et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) su nisko rangirani (ispod 5. percentila OT). Međutim, nalazi BE metode su potvrđeni drugim nezavisnim studijama za većinu gena, za koje su se rezultati BE metode razlikovali od onih koje je objavio Kazmierczak. et al. (Referenca Kazmierczak, Mithoe, Boor i Wiedmann 2003) (razrađeno u Dodatku).


Analiza dva stanja s replikama

Naučni eksperimenti se obično ponavljaju kako bi se ublažio učinak eksperimentalne greške. Eksperimenti s mikročišćenjima također mogu imati koristi od ponovljenih uzoraka kako bi se smanjio učinak slučajnih fluktuacija ili šuma. U ponavljanju eksperimenata s mikromrežom, možemo izabrati ili da ponovo uzmemo uzorak jedne ćelije ili tkiva, ili da uzorkujemo iz sličnih tipova ćelija ili tkiva. Prva strategija ublažava problem 'šuma čipova' ili fluktuacija nastalih isključivo zbog varijacija u proizvodnji mikročipova i njihove hibridizacije. Potonja strategija ublažava problem 'biološke buke' ili fluktuacija zbog varijabilnosti među različitim biološkim uzorcima.

Nedavno istraživanje buke čipova ukazuje na to da postoji značajna varijabilnost između eksperimenata na mikročiju, čak i kada se uzorci uzimaju iz istog izvora 42. Zapravo, ova studija nije ispitivala samo varijacije od čipa do čipa, već varijacije unutar čipa primjenom jednog uzorka na poseban cDNK niz sa 288 tačaka odštampanih u tri primjerka na tri lokacije na istom slajdu. Autori su osmislili eksperiment tako da treba izraziti tačno 32 od 288 tačaka. Njihova analiza tri replike pokazala je da se čini da su 55, 36 i 58 spotova izražene i da postoji značajna nedosljednost između tri replike.

Koliko god se činilo da je buka od čipa značajna, biološka buka će vjerovatno biti još veća. Jedna nedavna studija 46 procijenila je varijabilnost tkiva jetre miša od mjesta do mjesta, od klizanja do klizanja i od životinje do životinje. Ova studija mjerila je varijabilnost od mjesta do mjesta gledajući replicirane mrlje na istom slajdu i otkrila da je koeficijent varijacije (standardna devijacija podijeljena sa srednjom vrijednosti) 8-18%, ovisno o određenom genu. Varijabilnost klizanja do klizanja bila je slična sa 15%. Ali varijabilnost od životinje do životinje bila je veća, u rasponu od 18 do 60%, ovisno o određenom genu.

Mnoga pitanja o kojima smo razgovarali u slučaju s dva uzorka, poput ispravljanja pristranosti, ostaju važna za ponovljene eksperimente, iako ih nećemo dalje raspravljati. Često se metode s dva uzorka mogu generalizirati za rukovanje ponovljenim eksperimentima. Na primjer, možemo proširiti metode za ispravljanje pristranosti normalizacijom kroz niz N uzorke, a ne jedan uzorak protiv drugog. U ovom slučaju rješenje uključuje uklapanje normalizacijske krivulje ili linije N-dimenzionalni prostor.

Poređenje ponovljenih uzoraka

Ponovljeni uzorci za dva uslova mogu se uporediti korišćenjem t-test 39. The t-test mjeri razliku između dvije srednje vrijednosti uzorka, na osnovu količine varijabilnosti, ili standardne greške, u srednjim vrijednostima uzorka. Formule za t-test se može naći u statističkim udžbenicima za dva slučaja: jednaku varijansu i nejednaku varijansu između dva skupa uzoraka. Čini se da bi pretpostavka nejednake varijance bila prikladnija za analizu ekspresije gena, posebno ako aktivni geni imaju veću varijabilnost u ekspresiji gena od neaktivnih.

Osim toga, postoji i verzija t-test za uparene uzorke. Ova verzija bi se mogla primijeniti na odgovarajuće uzorke biopsije, odnosno kada se od istog pacijenta dobiju normalna i tumorska tkiva. Takvi se uzorci mogu uzeti iz središta i rubova kirurške resekcije tumora. Prednost podudarnih uzoraka je u tome što uklanjaju varijabilnost između pacijenata ili životinja i time čine usporedbe osjetljivijima.

The t-test pretpostavlja da replicirani podaci imaju osnovnu normalnu distribuciju. Ova pretpostavka je donekle razumna, posebno ako su ponovljeni uzorci relativno homogeni. Imajte na umu da se pretpostavka normalnosti ovdje razlikuje od pretpostavke normalnosti o kojoj smo prethodno raspravljali u slučaju dva uzorka. U toj raspravi razmatrali smo raspodjelu relativnih vrijednosti ekspresije po heterogenim genima u danom uzorku, a ne za dati gen po homogenim repliciranim uzorcima. U većini slučajeva imamo relativno malo ponovljenih uzoraka i teško je testirati normalnost u samo nekoliko tačaka podataka 39 . Stoga često prihvaćamo pretpostavku normalnosti jer je teško dokazati suprotno.

Ako pretpostavka normalnosti vrijedi, tstatistika se može uporediti sa odgovarajućom tdistribucija za određivanje a str vrijednost. Međutim, moramo biti oprezni pri dodjeli str vrijednosti podataka koji su podvrgnuti normalizaciji ili korekciji pristranosti. Ovi postupci pokušavaju učiniti nivoe ekspresije približno istim u uzorcima, čime se umjetno smanjuje količina varijabilnosti. Zauzvrat, niže vrijednosti varijabilnosti dovode do viših t vrijednosti i veliki broj lažno pozitivnih rezultata.

Još nije jasno kako je najbolje dodijeliti str vrijednosti nakon što su podaci normalizirani, ili kada normalna pretpostavka ne vrijedi. Jedna je mogućnost primijeniti metodu ponovnog uzorkovanja na temelju testa permutacije 45. Apermutacijski test stvara početne uzorke nasumičnim dodjeljivanjem oznaka kategorija. Na primjer, pretpostavimo da su podaci izvedeni iz četiri tumorska i četiri normalna uzorka. U svakom bootstrap uzorku, za svaki gen, kreiramo permutaciju četiri oznake tumora i četiri normalne oznake i dodjeljujemo te oznake vrijednostima prije izračunavanja t statistika. Distribucija ekstremnih t statistika ukazuje na odgovarajuće str vrijednost koju treba dodijeliti. Ove vrste analiza trenutno istražuje nekoliko istraživača.

Neparametarske metode

The t-test je primjer parametarskog pristupa, jer ovisi o određenim parametrima, kao što su varijanse za osnovne normalne distribucije. Možemo razmotriti i neparametarski pristup problemu, gdje ne pretpostavljamo da podaci prate bilo koji određeni tip distribucije. U neparametarskom testu, zamjenjujemo kvantitativne vrijednosti izraza rangovima ili procjenama istinito-netačno i koristimo ove nove vrijednosti za izračunavanje neke statistike.

Jedan standardni neparametarski test koji se koristi za analizu podataka mikromreža je Mann-Whitney test. U ovom testu grupiramo vrijednosti iz dva uzorka i izračunavamo zbir rangova koji dolaze iz svakog uzorka. Ako je ova statistika zbira ranga manja ili veća nego što bismo očekivali pod nultom hipotezom, onda se uzorci statistički razlikuju jedan od drugog za ovaj gen. Umjesto korištenja činova, možemo izračunati statistiku zbira ranga koristeći istinito -lažne usporedbe podataka, umjesto toga, ocjenjujući sve parove vrijednosti iz uzorka 1 i iz uzorka 2.

Rangiranje i formula u paru matematički su ekvivalentne. Međutim, formulacija u paru je posebno prikladna za Affymetrix nizove. Softver Affymetrix koristi vlasnički algoritam za procjenu parova skupova sondi, što rezultira kvalitativnom razlikom koja uzima jednu od pet mogućih vrijednosti: povećana, marginalno povećana, bez promjene, marginalno smanjena ili smanjena. Ove kvalitativne pozive možemo koristiti u parnoj formulaciji Mann -Whitneyjevog testa za izračunavanje statistike zbira ranga.

U našoj smo instituciji koristili Mann -Whitneyjevu metodu za identifikaciju prekomjerno eksprimiranih gena. U eksperimentu za određivanje uticaja kaptoprila na ekspresiju srčanih gena, moje kolege su proučavale srčano tkivo pacova kod kojih je infarkt miokarda (MI) bio izazvan hirurški 47 . Šest uzoraka je dobiveno od štakora tretiranih kaptoprilom, a šest od netretiranih štakora. Osim toga, bilo je i šest uzoraka kontrolnih štakora koji su podvrgnuti samo lažnoj operaciji. Poređenje u paru uzoraka MI sa lažnim uzorcima koristeći Mann-Whitney metod identifikovalo je 37 gena koji su bili značajno inducirani i šest koji su bili značajno potisnuti. Još jedno parno poređenje uzoraka MI tretiranih kaptoprilom sa neobrađenim uzorcima MI pokazalo je da je deset od 37 gena imalo poništavanje svojih promjena u ekspresiji gena.

Promene u ekspresiji gena identifikovane Mann-Whitneyjevom metodom potvrđene su kvantitativnom PCR-om pomoću TaqMan detektora sekvence, pokazujući da Mann-Whitneyjeva metoda daje nekoliko lažno pozitivnih rezultata. Međutim, budući da su pozivi razlika kvalitativni i donekle konzervativni, čini se da je Mann -Whitneyjeva metoda relativno bezosjećajna za identifikaciju pravih promjena u ekspresiji gena.

Otkrivanje podtipova uslova

U izvođenju ponovljenih uzoraka možemo biti zainteresirani ne samo za smanjenje varijabilnosti, već i za njeno proučavanje. Možda bismo htjeli znati, na primjer, da li otkrivamo podtipove među ponovljenim uzorcima. Iako su naši ponovljeni uzorci izvorno odabrani da budu slični, oni u stvari mogu biti heterogeni, sastoje se od dva ili više podtipova. Otkrivanje prethodno nepoznatih podtipova iz podataka je primjer prepoznavanja uzorka bez nadzora, za koji je klaster analiza prototipska metoda. Klaster analiza se intenzivno primjenjuje na podatke mikromreža 30 , obično da bi se identificirale podgrupe gena, a ne uzorci. Međutim, nedavne studije počele su koristiti klaster analizu za identifikaciju podgrupa uzoraka. This type of cluster analysis is useful in identifying candidate genes, because some genes are expressed only in particular tissue subtypes. Knowing these subtypes allows us to refine our search for genes of interest.

There are several methods for performing cluster analysis and many have already been applied to microarray data for clustering genes, including hierarchical clustering 16 , 48 , 49 , k-means clustering 50-52 , and self-organizing maps 53 , 54 . In addition, new types of cluster analysis techniques are being developed specifically for microarray data 55 , 56 . Cluster analysis methods differ along several attributes 57 . They can be either hierarchical or partitional, depending on the type of structure that they impose on the data. A hierarchical classification organizes the data into a dendrogram or tree structure, whereas a partitional method organizes the data into a single collection of groups. A hierarchical clustering specifies a sequence of nested partitions and we can obtain a single partition by cutting the dendrogram at a particular level.

Clustering algorithms can also be distinguished by whether they operate in an agglomerative or a divisive fashion. An agglomerative algorithm starts with each individual data element in its own cluster and then combines them to form larger clusters. In contrast, a divisive algorithm starts with the entire set of data in a single cluster and then subdivides the cluster to form smaller clusters. In order to perform a clustering analysis, we need to assess the similarity of two samples. Specifically, we require some function that takes two expression signatures (as defined in Figure 1) and produces some distance measure. The goal of cluster analysis is to produce clusters where this distance measure is small within clusters and large between clusters.

One example of sample clustering is a recent analysis of adult lymphoid malignancy 58 . In this analysis, researchers studied 96 samples of normal and malignant lymphocytes, including samples from patients with diffuse large B-cell lymphoma (DLBCL), follicular lymphoma (FL), and chronic lymphocytic leukaemia (CLL). Although these lymphomas are known to be distinct clinically, they were considered to be a single set of replicate samples for cluster analysis.

Hierarchical clustering of the data showed that FL and CLL samples were relatively similar to normal B-cells. However, DLBCLs had higher expression of several genes, especially those involved in cellular proliferation. Lower levels of the dendrogram revealed the presence of two distinct subtypes of DLBCLs, according to their expression signatures. One subtype had an expression signature similar to germinal centre B-cells and the other resembled activated peripheral blood B-cells. Interestingly, these subtypes of DLBCLs appeared to correlate with clinical outcome, with patients with germinal centre-like DLBCL having better survival rates than those with activated B-cell-like DLBCL.


Discussion and conclusions

In silico analysis gives reliable guidelines on algorithms’ performance in line with the results obtained on real data sets: ARACNE performs well for steady-state data and can be applied also when few experiments are available, as compared with the number of genes, but it is not suited for the analysis of short time-series data. This is to be expected owing to the requirement of statistically independent experiments. Banjo is very accurate, but with a very low sensitivity, on steady-state data when more than 100 different perturbation experiments are available, independently of the number of genes, whereas it fails for time-series data. Banjo (and Bayesian networks in general) is a probabilistic algorithm requiring the estimation of probability density distributions, a task that requires large number of data points. NIR works very well for steady-state data, also when few experiments are available, but requires knowledge on the genes that have been perturbed directly in each perturbation experiment. NIR is a deterministic algorithm, and if the noise on the data is small, it does not require large data sets, as it is based on linear regression. Clustering, although not a reverse-engineering algorithm, can give some information on the network structure when a large number of experiments is available, as confirmed by both in silico and experimental analysis, albeit with a much lower accuracy than the other reverse-engineering algorithms.

The different reverse-engineering methods considered here infer networks that overlap for about 10% of the edges for small networks, and even less for larger networks. Interestingly, if all algorithms agree on an interaction between two genes (an edge in the network), this interaction is not more likely to be true than the ones inferred by a single algorithm. Therefore it is not a good idea to ‘trust’ an interaction more just because more than one reverse-engineering algorithm finds it. Indeed, the different mathematical models used by the reverse-engineering algorithms have complementary abilities, for example ARACNE may correctly infer an interaction that NIR does not find and vice versa hence in the intersection of the two algorithms, both edges will disappear causing a drop in sensitivity without any gain in accuracy (PPV). Taking the union of the interactions found by all the algorithms is not a good option, as this will cause a large drop in accuracy. This observation leads us to conclude that it should be possible to develop better approaches by subdividing the microarray dataset in smaller subsets and then by applying the most appropriate algorithm to each microarray subset. How to choose the subsets and how to decide which is the best algorithm to use are still open questions.

A general consideration is that the nature of experiments performed in order to perturb the cells and measure gene expression profiles can make the task of inference easier (or harder). From our results, ‘local’ perturbation experiments, that is, single gene overexpression or knockdown, seem to be much more informative than ‘global’ perturbation experiments, that is, overexpressing tens of genes simultaneously or submitting the cells to a strong shock.

Time-series data allow one to investigate the dynamics of activation (inhibition) of genes in response to a specific perturbation. These data can be useful to infer the direct molecular mediators (targets) of the perturbation in the cell ( Bansal et al, 2006 ), but trying to infer the network among all the genes responding to the perturbation from time-series data does not yield acceptable results. Reverse-engineering algorithms using time-series data need to be improved. One of the reasons for the poor performance of time-series reverse-engineering algorithms is the smaller amount of information contained in time-series data when compared with steady-state data. Time-series are usually measured following the perturbation of one or few genes in the cell, whereas steady-state data are obtained by performing multiple perturbations to the cell, thus eliciting a richer response. One way to improve performance in the time-series case is to perform more than one time-series experiment by perturbing different genes each time, but this may be expensive another solution could be to perform only one perturbation experiment but with a richer dynamics, for example the perturbed gene should be overexpressed and then allowed to return to its endogenous level, while measuring gene expression changes of the other genes. Richer dynamics in the perturbation will yield richer dynamics in the response and thus more informative data.

Gene network inference algorithms are becoming accurate enough to be practically useful, at least when steady-state gene expression data are available, but efforts must be directed in assessing algorithm performances. In a few years, gene network inference will become as common as clustering for microarray data analysis. These algorithms will become more ‘integrative’ by exploiting, in addition to expression profiles, protein–protein interaction data, sequence data, protein modification data, metabolic data and more, in the inference process ( Workman et al, 2006 ).


Prediction of radiation sensitivity using a gene expression classifier

The development of a successful radiation sensitivity predictive assay has been a major goal of radiation biology for several decades. We have developed a radiation classifier that predicts the inherent radiosensitivity of tumor cell lines as measured by survival fraction at 2 Gy (SF2), based on gene expression profiles obtained from the literature. Our classifier correctly predicts the SF2 value in 22 of 35 cell lines from the National Cancer Institute panel of 60, a result significantly different from chance (P = 0.0002). In our approach, we treat radiation sensitivity as a continuous variable, significance analysis of microarrays is used for gene selection, and a multivariate linear regression model is used for radiosensitivity prediction. The gene selection step identified three novel genes (RbAp48, RGS19, and R5PIA) of which expression values are correlated with radiation sensitivity. Gene expression was confirmed by quantitative real-time PCR. To biologically validate our classifier, we transfected RbAp48 into three cancer cell lines (HS-578T, MALME-3M, and MDA-MB-231). RbAp48 overexpression induced radiosensitization (1.5- to 2-fold) when compared with mock-transfected cell lines. Furthermore, we show that HS-578T-RbAp48 overexpressors have a higher proportion of cells in G2-M (27% versus 5%), the radiosensitive phase of the cell cycle. Finally, RbAp48 overexpression is correlated with dephosphorylation of Akt, suggesting that RbAp48 may be exerting its effect by antagonizing the Ras pathway. The implications of our findings are significant. We establish that radiation sensitivity can be predicted based on gene expression profiles and we introduce a genomic approach to the identification of novel molecular markers of radiation sensitivity.


Diskusija

Our goal was to explore the relationship between microarray expression data and the expression data reported in the literature because in our daily work both of these data sources are used as complementary sources of information. From the therapeutic point of view, for example, every DEG in disease is a potential point of intervention or target. Thus, the sole use of microarray data or of the literature could lead to missing out on potential targets that appear in one source and not the other. For instance, EGFR does not appear upregulated in the PS microarray dataset, while it is one of the most frequently mentioned upregulated genes in the PS literature dataset. On the other hand, defensin beta 4B (DEFB4B) does not appear in the PS literature dataset despite showing the second-highest level of overexpression in the PS microarray dataset.

Our strategy for gathering microarray data was to select one dataset for each disease of interest, each dataset created with the same platform to avoid variability across manufacturers. For literature data, our approach was to gather a representative sample of the literature, rather than to create an exhaustive representation. We, moreover, focused on abstracts, rather than on full text articles, due to limited full text availability. Thus, the true number of statements regarding differential expression in the literature is larger than what is reported here.

The fact that more literature results were oriented towards overexpression than underexpression, unlike in microarray data, indicates a scientific bias towards reporting overexpression. This bias could be related to the fact that most drugs are inhibitors and therefore an overexpressed gene is more likely to represent a potential target. Since, in principle, downregulation may have as much functional importance in disease as upregulation, this bias could be distorting in our understanding of diseases.

We also noted that popular genes tend to be more often described in the literature as overexpressed in disease, an effect that is much milder or non-existent for overexpressed genes from microarray data. This could explain partially why differential expression similarities between diseases are higher within the literature in comparison to microarray data. The quest for higher research impact could be one of the drivers for the additional attention paid to popular genes [31,32,33], leading to further amplification of their presumed biological importance beyond actual biological evidence.

Our analysis also hints that our perception of the level of similarity between certain diseases could be biased by general properties of the diseases that are not reflected in the expression data. Thus, PS and AD, which share anatomical location, appear more similar in the literature than UC and AD, contrary to what is reflected in microarray data.

We also found that microarray data and the literature can produce divergent views of the pathological mechanisms driving diseases depending on the fold-change cutoff. For FC > 0, the functional classes associated to overexpressed genes in the literature can be very different from those associated to microarray data. As the threshold for FC increases, the similarity between the literature and microarray data increases, which is then reflected in higher LR+ values and overlapping functional classes.

One explanation for the divergences between microarray data and the literature comes obviously from the differences in experimental settings. Expression data from the literature stem from a variety of sources involving methods such as immunohistochemistry, flow cytometry, in situ hybridization, RT-PCR, next-generation sequencing--and also microarrays. Each of these sources differs in level of granularity and molecule measured (e.g. mRNA vs. protein). On the other hand, even though all microarray data in our study came from the same platform from the same manufacturer, and each dataset was created within a single research study, microarray data variability has been shown to be a challenge for reproducibility [34,35,36,37].

Moreover, because experiments in the literature can be more fine-grained than microarray studies, it is possible that a gene might be found to be upregulated in some parts of a diseased tissue and downregulated in others, confounding the simplified representation used here and hampering comparisons with microarray data.

One additional aspect not considered in this study was the historical dimension. High-throughput techniques have been gaining in popularity only recently therefore older publications would have been less affected by findings coming from high-throughput studies.


Materijali i metode

A graphical representation of the performed analyses, depicting interrelations, is provided in Supplementary Fig. S5. All figures can be reproduced using the R script available at http://www.combine.rwth-aachen.de/index.php/resources.html.

Datasets and annotation

The Lukk dataset 4 , consisting of 5372 samples from the Affymetrix Human U133A microarray platform, and the corresponding sample annotation was downloaded in preprocessed form from ArrayExpress (http://www.ebi.ac.uk/arrayexpress/, accession number E-MTAB-62). The own dataset consisting of 7100 samples from the Affymetrix Human U133Plus 2.0 platform was compiled based on 108 public datasets from the Gene expression omnibus (GEO) database (http://www.ncbi.nlm.nih.gov/geo/, Supplemental Table S1). The raw data (CEL-files) were downloaded and preprocessed with Affymetrix Power Tools (http://www.affymetrix.com/estore/partners_programs/programs/developer/tools/powertools.affx) using the robust multi-array average (RMA) normalization method. The preprocessed dataset can be downloaded from http://www.combine.rwth-aachen.de/index.php/resources.html. The sample annotation was performed manually based on the description in the GEO database. Cancer cell lines and tissues were classified according to their primary tissue, leading to a less detailed distinction as in the Lukk dataset. This explains the reduced number of groups (192 instead of 369) in the own dataset compared to the Lukk dataset. In the latter, different cell lines and histologically different cancer tissues from the same primary site are classified into separate groups. The own dataset contains 213 in vitro (trans-) differentiated or teratoma samples which were not associated with any of the 192 groups.

Comparison of PCA results

Principal components analysis of the Lukk and the own dataset were calculated in R version 3.1.2 using the prcomp function of the statistika paket. Subsequently, we compared the first three PCs of both datasets in order to determine whether they span similar spaces. For this analysis, we mapped the probes of the two platforms using the getBM function of the biomaRt package in R and performed linear regression analysis (R function lm of package statistika) to explain the expression pattern of PCs 1 to 4 from the own dataset by the first three (first five, or first ten) PCs of the Lukk dataset. The resulting R 2 values were reported as similarity measure of the two spaces.

The selection of a subset of samples from the own dataset with similar sample distribution as the Lukk dataset was performed in the following way. We used all 482 hematopoietic samples in the own dataset and randomly selected 74 brain, 163 cell line, 40 incompletely differentiated, 48 muscle, and 587 other samples. These numbers were chosen to match the proportion of samples in each of these large-scale groups to the respective proportion in the Lukk dataset.

The investigation of the effect of reduced numbers of liver or liver cancer samples in the own dataset was performed on the complete dataset with only the number of liver (cancer) samples reduced. Thus, we used all 6825 non-liver samples together with the specified number of liver (cancer) samples and performed a PCA on the dataset. PCs 1–3 did not change significantly with increasing number of liver samples (data not shown). Therefore, we focused on the differences in the liver-specific PC 4.

Correlation analyses

The Pearson correlation of gene expression patterns between the 369 groups of the Lukk dataset as well as the 192 groups of the own dataset (Fig. 2a,d) was calculated between the vectors pointing from the overall mean of the entire dataset to the respective group mean. For the residual correlation after PCA-based decomposition (Fig. 2b,e), the residual vectors pointing from the three dimensional PCA space to the respective group means were used instead.

Within-group correlation was calculated in the same way between individual samples within one specific group. These calculations were performed for all groups that contain at least 10 samples. Depicted are the mean correlation values for each group (Fig. 2c,f).

Information ratio

The information ratio is described in detail in 3 and will be only briefly described here. The general idea is to decompose the expression data into two data matrices of the same size as the original data, one representing the projection onto the first three PCs and one representing the residual expression. For each of the two generated data matrices, the log-p-value between two groups, e.g. two different tissues, is calculated for each gene and plotted against the p-value of the original dataset. It is thus assessed which part of the expression difference between the two groups is captured by the first three PCs or the residual space, respectively. Strongly negative log-p-values are associated with high information content in the respective subspace. The p-values from the projected and residual space are then summarized into a single number ranging from 0 to 1, indicating whether most information is contained in the projected space (low IR values) or in the residual space (high IR values) 3 . This number can be interpreted as the proportion of group-specific information that is contained in the residual space.

Analysis of sample subsets

For the analysis of sample subsets we also used the decomposition into the projected and residual data matrices. We then concentrated on the residual data matrix and performed a PCA on the respective subset of data, i.e. the cancer subset or the brain subset. PCA successively identifies the direction of largest variability in the space orthogonal to the already identified directions. Therefore, it would not make sense to perform PCA on the complete residual matrix, since this would exactly identify the fourth, fifth, and all further PCs from the original dataset. However, performing PCA on a subset of data can reveal different directions. In our case, the first two PCs of this subset analyses had a clear biological meaning (Fig. 4) as opposed to the fourth PC of the original complete dataset (Supplemental Fig. S1). Thus, performing PCA on subsets of data can reveal additional biologically relevant dimensions.

Validation of the biological relevance of the newly identified dimensions was then performed using our own dataset. As a first step, the own data was projected onto the first three PCs of the Lukk dataset (Supplementary Fig. S3, Fig. 4b). In order to do this, probesets of the two different microarray platforms were matched using the biomaRt package in R. Afterwards, the mean value for each gene (from our own dataset) was subtracted and the data were orthogonally projected onto the three PCs of the Lukk dataset using scalar products between the loading vector of each PC and the gene expression vectors. In a second step, we concentrated on subsets of the own dataset that correspond to the two subsets from the Lukk dataset, i.e. consisting of colorectal, liver, and ovarian cancer samples, as well as hypothalamus, cerebral cortex, and cerebellum samples. For both of these subsets the residual expression matrix was determined by subtracting the information that is contained in the three PCs of the Lukk dataset. Afterwards, the residual expression vectors were projected onto the respective first two “residual subset PCs” that were identified based on the subset analysis of the Lukk dataset (Fig. 4b insets).

PhysioSpace analyses

For the PhysioSpace analyses the tissue-specific expression patterns that were determined based on the Human body index dataset (GEO accession GSE7307) were used 7 . Each individual sample of the Lukk dataset was compared to the overall mean of the Lukk dataset and the expression difference was projected onto the PhysioSpace as described in the original publication 7 . This results in 93 scores per sample that are associated with tissue specific expression. Eight of these scores were selected for visualization (Fig. 6) to exemplify the ability to detect additional clusters of samples that were partially not detectable by PCA.

Color-coding in Fig. 6 was performed according to the sample annotation provided by Lukk et al. 4 . We detected some samples that were annotated as “kidney”, but which showed a low “kidney score” in the PhysioSpace (Fig. 6c). In addition, some samples annotated as “kidney” seemed to be similar to liver. We then went back to the original source of these samples (GEO accession GSE2004) and detected that these samples were wrongly annotated in the Lukk dataset (Fig. 6c).

In a similar way, we could detect that two samples annotated as “embryonic stem cell” in the Lukk dataset actually underwent an in vitro differentiation for 5 or 14 days (ArrayExpress accession E-MEXP-303, Fig. 6d).


Pogledajte video: REGULACIJA GENSKE EKSPRESIJE: LAKTOZNI OPERON, DIFERENCIJACIJA ĆELIJA KOD ČOVJEKA (Oktobar 2022).