DAPC vs. Bayesian Clustering: En Dybere Forståelse

03/06/2023

★★★★★Rating: 4.17 (5772 votes)

Indholdsfortegnelse

DAPC som et Stærkt Alternativ til Bayesiansk Clustering

DAPC som et Stærkt Alternativ til Bayesiansk Clustering

I studiet af populationers genetik og evolution er det ofte essentielt at forstå den underliggende struktur og identifikation af distinkte grupper eller klynger. Traditionelt har metoder som Bayesiansk clustering, især dem baseret på software som STRUCTURE, været en hjørnesten i denne type analyse. Disse metoder er bygget på antagelser om, at markørerne er uafhængige, og at populationerne er panmiktiske – det vil sige, at der sker tilfældig parring inden for populationen. Men hvad sker der, når disse antagelser ikke holder? Når vi står over for populationer, der er klonale eller delvist klonale, bliver disse traditionelle metoder mindre egnede. Her træder nye og mere robuste metoder som Discriminant Analysis of Principal Components (DAPC) frem som et attraktivt og kraftfuldt alternativ.

Is DAPC a good alternative to Bayesian clustering? — DAPC is a wonderful tool for exploring structure of populations based on PCA and DA without making assumptions of panmixia. Thus, this technique provides a robust alternative to Bayesian clustering methods like STRUCTURE (Pritchard et al., 2000) that should not be used for clonal or partially clonal populations.

Introduktion til DAPC

DAPC, som er udviklet af Jombart og kolleger, er en multivariat statistisk metode, der sigter mod at identificere og karakterisere genetiske klynger inden for en population. Kernen i DAPC ligger i dens evne til at partitionere variansen i datasættet i en mellem-gruppe og en inden-gruppe komponent. Målet er at maksimere diskriminationen mellem de potentielle grupper. Processen involverer to primære trin: først en Principal Component Analysis (PCA) for at transformere dataene og reducere dimensionaliteten, og derefter en Discriminant Analysis (DA) for at identificere klyngerne. Denne to-trins tilgang gør DAPC særligt effektiv til at håndtere komplekse genetiske datasæt, hvor traditionelle metoder kan fejle.

Hvordan Fungerer DAPC?

For at forstå DAPC's styrker, lad os dykke ned i dens mekanismer. PCA bruges til at identificere de vigtigste akser af genetisk variation i datasættet. Disse akser, eller principal components, fanger den mest signifikante variation, ofte på en måde der er mere robust over for støj og tilfældige fluktuationer end de oprindelige genetiske data. Efter PCA anvendes DA. DA er en overvåget læringsmetode, der, i DAPC's kontekst, bruger de identificerede PCA-akser til at finde de lineære kombinationer, der bedst adskiller de foruddefinerede grupper. Uden foruddefinerede grupper kan DAPC bruges iterativt til at finde det optimale antal klynger.

Anvendelse af DAPC: Et Case Study med H3N2 Influenza

Et fremragende eksempel på DAPC's anvendelse findes i analysen af H3N2 influenza-stammer. Dette datasæt, som indeholder 1903 isolater genotypet for 125 single nucleotide polymorphisms (SNPs) i hemagglutinin-segmentet, giver en god illustration af, hvordan DAPC kan afdække populationsstruktur over tid. Ved at anvende DAPC på disse data, og specifikt ved at bruge funktionen dapc() fra adegenet-pakken i R, kan forskere visualisere den genetiske adskillelse mellem forskellige årskull af virusstammerne.

I denne analyse blev parametrene var.contrib = TRUE, scale = FALSE, n.pca = 30 og n.da = nPop(H3N2) - 1 anvendt. Lad os se på betydningen af disse parametre:

Parameter	Beskrivelse
`var.contrib`	Når sat til `TRUE`, bevares de variabler (loci/SNPs), der bidrager mest til analysen, hvilket gør det muligt at identificere de genetiske markører, der driver populationsadskillelsen.
`scale`	Når sat til `FALSE`, undgås standardisering af data, hvilket kan være relevant afhængigt af dataenes natur.
`n.pca`	Antallet af principal components, der beholdes efter PCA. Valget af dette tal er kritisk og kan påvirke resultaterne markant. Krydsvalidering er ofte nødvendig for at bestemme det optimale antal.
`n.da`	Antallet af diskriminante akser, der bevares i DA-fasen.

Visualiseringen af resultaterne, typisk ved hjælp af scatter()-funktionen, viste, at H3N2-stammer fra forskellige år (2001-2005) dannede distinkte klynger adskilt langs den første akse. Den anden akse afslørede yderligere adskillelse, der differentierede stammerne fra 2006 fra de tidligere årgange, hvilket indikerer en genetisk divergens. Ved at undersøge variansbidraget kunne man identificere specifikke SNPs, såsom dem ved position 399 og 906, der var mest ansvarlige for denne adskillelse. Analyse af allelfrekvenser for disse SNPs over tid bekræftede, at nye alleler opstod og blev mere fremtrædende i visse år, hvilket førte til den observerede genetiske differentiering.

Krydsvalidering: Optimering af DAPC med Phytophthora Ramorum

Et afgørende aspekt ved DAPC er valget af det korrekte antal principal components (PCs). For mange PCs kan introducere støj og falske mønstre, mens for få kan overse vigtige variationer. Krydsvalidering er en standardteknik til at bestemme det optimale antal PCs. Processen indebærer at opdele datasættet, køre DAPC på en del af det og derefter vurdere, hvor godt de resterende data passer ind i de identificerede klynger.

Datasættet af Phytophthora ramorum fra Californien og Oregon tjener som et godt eksempel. Dette datasæt, der repræsenterer pludselig egdød-epidemien, er opdelt i forskellige vandskelregioner. Ved at bruge funktionen xvalDapc() kan man køre flere replikater af krydsvalidering for et interval af PC-tal. Dette giver en indikation af, hvor det optimale antal PCs sandsynligvis ligger. Ved at køre en mere intens krydsvalidering med et snævrere interval og flere replikater (f.eks. 1000 replikater for 10-20 PCs), kan man identificere det antal PCs, der giver den højeste succesrate for korrekt klassifikation eller den laveste Root Mean Squared Error (RMSE).

Resultaterne fra krydsvalidering på Phytophthora ramorum-dataene pegede på omkring 16 PCs som det optimale valg. Dette antal PCs fangede den væsentligste variation og gav den mest nøjagtige gruppering af individerne. Ved at visualisere DAPC-resultaterne med det optimerede antal PCs, kunne man igen observere en klar adskillelse, som i dette tilfælde understøttede hypotesen om en separat introduktion af Phytophthora ramorum til Hunter Creek-populationen.

Fordele ved DAPC frem for Bayesiansk Clustering

Hvorfor foretrække DAPC, især i visse scenarier? DAPC tilbyder flere væsentlige fordele:

Ingen antagelser om Panmixi: DAPC kræver ikke, at populationerne er panmiktiske. Dette gør den ideel til at analysere data fra organismer med asexuel reproduktion, selvbefrugtning eller andre former for begrænset genflow, hvor Bayesiansk clustering kan give misvisende resultater.
Effektivitet med Høj Dimensionalitet: Ved at bruge PCA reducerer DAPC effektivt dimensionaliteten af genetiske data, hvilket gør den håndterbar selv med tusindvis af SNPs.
Direkte Visualisering: DAPC giver mulighed for direkte visualisering af grupperinger og relationer mellem individer og grupper, hvilket kan være mere intuitivt end de sandsynlighedsbaserede output fra Bayesianske metoder.
Identifikation af Drivende Markører: Med parametre som var.contrib kan DAPC hjælpe med at identificere specifikke genetiske markører, der er ansvarlige for populationsadskillelsen, hvilket giver dybere indsigt i de evolutionære processer.

Sammenligningstabel: DAPC vs. Bayesiansk Clustering

Karakteristik	DAPC	Bayesiansk Clustering (f.eks. STRUCTURE)
Grundlag	Multivariat statistik (PCA + DA)	Bayesiansk inferens
Antagelser om Population	Ingen krav om panmixi; egnet til klonale populationer	Antager uafhængige markører og panmixi
Data Transformation	Bruger PCA til dimensionsreduktion	Direkte brug af genetiske data (marker-afhængig)
Output	Klynge-medlemskab, visualiseringer, bidragende markører	Sandsynlighed for medlemskab i hver klynge, estimeret antal klynger (K)
Styrker	Robusthed over for ikke-panmiktiske data, effektiv med høj dimensionalitet	Kan estimere K, håndterer linkage disequilibrium (hvis specificeret)
Svagheder	Kræver valg af antal PCs, resultater kan være følsomme over for dette valg	Følsom over for antagelser; kan være upålidelig for klonale populationer

Konklusion

Discriminant Analysis of Principal Components (DAPC) udgør en robust og fleksibel metode til at afdække populationsstruktur. Dens evne til at operere uden de strenge antagelser om panmixi, som ofte præger Bayesianske clustering-metoder, gør den til et uvurderligt værktøj, især når man arbejder med klonale eller delvist klonale populationer. Gennem en kombination af PCA og DA kan DAPC effektivt identificere distinkte genetiske grupper, visualisere relationer og endda pege på de specifikke genetiske markører, der driver disse mønstre. Mens valg af antal principal components kræver omhu og ofte involverer krydsvalidering, tilbyder DAPC en kraftfuld og ofte mere passende tilgang til populationsgenetisk analyse i mange moderne studier.

Ofte Stillede Spørgsmål (FAQ)

Er DAPC altid bedre end Bayesiansk clustering?
Ikke nødvendigvis. Hvis din population er kendt for at være panmiktisk og opfylder antagelserne for Bayesiansk clustering, kan disse metoder være meget effektive. DAPC er dog et stærkere alternativ, når disse antagelser ikke holder, eller når du har brug for en mere direkte visualisering af grupperingerne.

Hvordan vælger jeg det optimale antal principal components (PCs) for DAPC?
Krydsvalidering, som demonstreret med xvalDapc()-funktionen, er den mest anbefalede metode. Ved at teste forskellige antal PCs og evaluere klassifikationssucces eller RMSE, kan du identificere det antal, der bedst repræsenterer den sande populationsstruktur uden at indføre for meget støj.

Kan DAPC bruges til at estimere antallet af klynger?
Ja, DAPC kan bruges i en iterativ proces, hvor man tester forskellige antal klynger og evaluerer den bedste pasform, ofte ved hjælp af visuelle inspektioner af scatter plots eller statistiske kriterier.

Hvad er fordelen ved at bruge R-pakker som adegenet og poppr til DAPC?
Disse pakker tilbyder optimerede funktioner til at udføre DAPC-analyser, herunder datamanipulation, PCA, DA, krydsvalidering og visualisering. De forenkler processen og giver adgang til avancerede funktioner, der er nødvendige for en grundig analyse.

Hvis du vil læse andre artikler, der ligner DAPC vs. Bayesian Clustering: En Dybere Forståelse, kan du besøge kategorien Teknologi.