19/03/2025
I den moderne datadrevne verden er evnen til at forstå og visualisere data afgørende. To fundamentale værktøjer, der hjælper os med dette, er histogrammer og glidende gennemsnit. Mens histogrammer giver et øjebliksbillede af en datasætfordeling, hjælper glidende gennemsnit med at identificere trends og mønstre over tid. Denne artikel vil guide dig gennem, hvad histogrammer er, hvordan de fungerer, og hvordan du beregner glidende gennemsnit, alt sammen understøttet af illustrative eksempler.

Hvad er et Histogram?
Et histogram er en grafisk repræsentation af datafordelingen. Det er en type søjlediagram, hvor hver søjle repræsenterer frekvensen af datapunkter inden for et bestemt interval eller 'bin'. Søjlerne er typisk sammenhængende, hvilket indikerer, at dataene er kontinuerlige. Histogrammer er utroligt nyttige til at få en hurtig forståelse af:
- Datadistributionens form: Er dataene symmetriske, skæve til højre eller venstre?
- Centrum for dataene: Hvor ligger de mest almindelige værdier?
- Spredningen af dataene: Hvor varierede er dataene?
- Tilstedeværelsen af outliers: Er der usædvanligt høje eller lave værdier?
På figuren til venstre ser vi et eksempel på et histogram. Dataene er opdelt i et bestemt antal 'bins', og højden af hver søjle angiver antallet af datapunkter, der falder inden for det pågældende bin. Som du kan se i koden, bruges `matplotlib.pyplot.hist()` funktionen til at generere dette. Parameteren `bins` styrer, hvor mange intervaller dataene skal opdeles i. Jo flere bins, jo mere detaljeret bliver billedet, men det kan også blive mere støjende. Omvendt kan for få bins skjule vigtige mønstre.
Farvekodning af Histogrammer
Som vist i eksemplet kan histogrammer også farvekodes baseret på forskellige kriterier. I dette tilfælde er søjlerne farvet baseret på deres højde i forhold til den maksimale højde. Dette gøres ved at normalisere antallet af observationer i hver bin (`N`) til et interval mellem 0 og 1 (`fracs = N / N.max()`). Derefter bruges en farveskala (i dette tilfælde 'viridis') til at tildele en farve til hver søjle baseret på dens normaliserede højde. Dette kan hjælpe med at fremhæve områder med højere eller lavere datatæthed.
Normalisering og Procentvis Repræsentation
Figuren til højre viser en anden variant af histogrammet, hvor `density=True` parameteren er brugt. Når denne parameter er aktiveret, normaliseres histogrammet, så arealet af alle søjler tilsammen er lig med 1. Dette betyder, at højden af hver søjle repræsenterer sandsynlighedsdensiteten for den pågældende bin. Y-aksen kan derefter formateres til at vise procenter ved hjælp af `PercentFormatter`. Dette er nyttigt, når man vil sammenligne fordelinger af datasæt med forskellige størrelser, eller når man ønsker at tolke søjlerne som sandsynlighedsoverlap.
| Parameter | Beskrivelse |
|---|---|
| `data` | De data, der skal plottes. |
| `bins` | Antallet af intervaller eller en liste over intervalgrænser. |
| `density` | Hvis True, returneres sandsynlighedsdensitetsfunktionen. |
| `color` | Farven på søjlerne. |
Hvad er Glidende Gennemsnit?
Et glidende gennemsnit, også kendt som et bevægeligt gennemsnit, er en statistik, der bruges til at analysere datapunkter ved at skabe en række gennemsnit af forskellige undergrupper af det fulde datasæt. Det er en simpel, men kraftfuld teknik til at glatte dataserier og identificere trends ved at filtrere kortsigtede udsving eller 'støj' fra. Glidende gennemsnit er især populære inden for finansiel analyse, men anvendes også i mange andre felter, herunder vejrudsigter, teknisk analyse og signalbehandling.
Hvordan Beregnes et Glidende Gennemsnit?
Den mest almindelige type glidende gennemsnit er det simple glidende gennemsnit (SMA). Beregningen er ligetil:
- Vælg en periode (antal datapunkter), f.eks. 5 dage, 10 uger osv. Denne periode kaldes 'vinduet'.
- Tag de første 'n' datapunkter (hvor 'n' er vinduesstørrelsen) og beregn deres gennemsnit. Dette er det første punkt i dit glidende gennemsnit.
- 'Skub' vinduet ét datapunkt frem. Fjern det ældste datapunkt og inkluder det næste nye datapunkt.
- Beregn gennemsnittet af de nye 'n' datapunkter. Dette er det næste punkt i dit glidende gennemsnit.
- Gentag denne proces, indtil du har nået slutningen af datasættet.
Lad os illustrere med et simpelt eksempel. Antag, at vi har følgende daglige aktiekurser: 10, 12, 11, 13, 14, 15, 16. Vi ønsker at beregne et 3-dages glidende gennemsnit:
- Dag 1-3: (10 + 12 + 11) / 3 = 11
- Dag 2-4: (12 + 11 + 13) / 3 = 12
- Dag 3-5: (11 + 13 + 14) / 3 = 12.67
- Dag 4-6: (13 + 14 + 15) / 3 = 14
- Dag 5-7: (14 + 15 + 16) / 3 = 15
Resultatet er en ny dataserie: 11, 12, 12.67, 14, 15. Denne serie vil være glattere end den oprindelige, og den vil vise den underliggende trend bedre.
Typer af Glidende Gennemsnit
Ud over det simple glidende gennemsnit findes der også andre varianter:
- Eksponentielt Glidende Gennemsnit (EMA): EMA giver mere vægt til nyere datapunkter, hvilket gør det mere responsivt over for nylige ændringer. Formlen involverer en glatningsfaktor, der bestemmer vægten af de seneste observationer.
- Vægtet Glidende Gennemsnit (WMA): WMA tildeler specifikke vægte til hvert datapunkt i vinduet, ofte med stigende vægte for nyere data.
Valget af glidende gennemsnitstype afhænger af den specifikke anvendelse og den ønskede følsomhed over for nye data.
Anvendelse af Glidende Gennemsnit
Glidende gennemsnit er uvurderlige til:
- Trendidentifikation: Ved at fjerne kortsigtede udsving bliver den langsigtede trend mere synlig.
- Understøttelse og Modstandsniveauer: I finansiel analyse bruges de ofte til at identificere potentielle prisniveauer, hvor en trend kan vende.
- Signalgenerering: Krydsninger mellem forskellige glidende gennemsnit (f.eks. et 50-dages og et 200-dages SMA) kan bruges som købs- eller salgssignaler.
Sammenligning: Histogram vs. Glidende Gennemsnit
Det er vigtigt at forstå, at histogrammer og glidende gennemsnit tjener forskellige formål:
| Karakteristik | Histogram | Glidende Gennemsnit |
|---|---|---|
| Primært Formål | Visualisere datadistribution | Identificere trends, udjævne data |
| Input | Et enkelt datasæt | En tidsserie eller sekventielle data |
| Output | Grafisk repræsentation af frekvenser i intervaller | En ny dataserie, der viser udjævnede værdier |
| Tidsafhængighed | Viser data på et givet tidspunkt (ingen tidsakse i traditionel forstand) | Afhængig af rækkefølgen af data; viser udvikling over tid |
Ofte Stillede Spørgsmål
Hvad er den optimale 'bin'-størrelse for et histogram?
Der er ingen universel regel. En almindelig tommelfingerregel er at prøve mellem 5 og 20 bins, eller bruge metoder som Sturges' regel eller 'Square-root rule' som udgangspunkt, men det bedste valg afhænger ofte af datasættets størrelse og formål.
Hvornår skal jeg bruge et glidende gennemsnit?
Brug det, når du vil identificere trends i tidsseriedata, reducere støj eller få en glattere repræsentation af dine data.
Hvilken vinduesstørrelse skal jeg vælge for et glidende gennemsnit?
Kortere vinduer reagerer hurtigere på ændringer, men er mere følsomme over for støj. Længere vinduer giver en glattere linje og identificerer bedre langsigtede trends, men reagerer langsommere på nye ændringer. Valget afhænger af, hvilken type trend du ønsker at fremhæve.
Kan jeg bruge histogrammer på tidsseriedata?
Ja, du kan oprette et histogram af ændringerne i en tidsserie eller af værdierne inden for specifikke tidsintervaller, men det viser ikke direkte trenden over tid på samme måde som et glidende gennemsnit.
Konklusion
Histogrammer og glidende gennemsnit er begge essentielle værktøjer i dataanalytikerens arsenal. Mens histogrammer giver et uvurderligt indblik i datadistributionens natur, hjælper glidende gennemsnit os med at navigere i tidsseriernes kompleksitet ved at afsløre underliggende trends. Ved at mestre brugen af disse teknikker kan du opnå en dybere forståelse af dine data og træffe mere informerede beslutninger.
Hvis du vil læse andre artikler, der ligner Forstå Histogrammer og Glidende Gennemsnit, kan du besøge kategorien Teknologi.
