Regressie-analyse voor beginners
Regressie-analyse is een veelzijdige en veelgebruikte statistische analysemethode om de relatie tussen variabelen te schatten. De term regressie heeft bij mij altijd een vervelende bijklank gehad: het tegenovergestelde van progressie, vooruitgang (misschien dat ik daarom een hekel had aan statistiek). Een misleidende term als je nagaat hoe deze in de wereld van statistiek wordt gehanteerd. Hierin is de term regressie afgeleid van het fenomeen “regressie naar het midden”.
Hulp nodig bij je scriptie?
Vul je gegevens in voor een gratis en vrijblijvend adviesgesprek.
10.000+ studenten geslaagd
98% slaagt op tijd
Hbo & wo, online & offline
Scriptiebegeleiding sinds 2005
Inhoudsopgave
De Engelse antropoloog Francis Galton ontdekte dat kinderen uitzonderlijke eigenschappen van hun ouders overerven, maar dat er wel een trend van “regressie naar het midden” bestaat. Lange ouders krijgen bijvoorbeeld lange kinderen en korte ouders korte kinderen, echter steeds minder nadrukkelijk. Galton noemde de analysemethode die hij gebruikte naar het door hem bestudeerde fenomeen: regressie. Karl Pearson verfijnde later de rekenmethode en behield de door Galton bedachte terminologie.
Enfin, genoeg anekdotes. In dit artikel bespreek ik, zoveel mogelijk in lekentaal, wat regressie-analyse is en waarvoor je het kunt toepassen. Ken je de basics al en wil je aan de slag? Lees dan dit artikel over lineaire regressie met SPSS.
De basics van lineaire regressie
De meest eenvoudige vorm van regressie is enkelvoudige lineaire regressie. Hiermee kunnen we bijvoorbeeld op basis van de temperatuur voorspellen hoeveel ijsjes er worden verkocht en vaststellen of dit verband significant is. Wanneer we aan dit model een extra voorspellende variabele aan toevoegen, bijvoorbeeld besteedbaar inkomen, dan spreken we over meervoudige lineaire regressie. Dit klinkt misschien indrukwekkend, maar deze analysemethode is betrekkelijk eenvoudig. De essentie van (lineaire) regressie is dat we een passend model maken bij onze data. Met dit model voorspellen we de waarde van een afhankelijke variabele op basis van de waarde van een (of meer) onafhankelijke variabele(n) (ook wel verklarende of voorspellende variabelen genoemd).
Hiermee gaat regressie-analyse een stap verder dan het bepalen van correlatie, waar slechts naar samenhang wordt gekeken en niet naar een lineair verband met voorspellende waarde.
Wat belangrijke informatie over rechte lijnen
De volgende algemene formule kunnen we gebruiken om de relatie tussen twee variabelen weer te geven:
Deze formule zegt niets meer dan “Uitkomst = (model) + error”, waarbij “Uitkomst” de afhankelijke variabele is (aantal verkochte ijsjes), “(model)” een of meer variabelen die de uitkomst beïnvloeden (temperatuur en/of besteedbaar inkomen) en “error” of foutmarge oftewel afwijking van de lijn. Bij lineaire regressie hebben we het vermoeden dat de data lineair is. Dit betekent dat we de data proberen samen te vatten in een rechte lijn. Elke rechte lijn kan gedefinieerd worden door twee elementen:
- slope (de helling): geeft aan hoe stijl de lijn is;
- intercept: geeft aan wat het startpunt van de lijn is bij x = 0 (dus het punt waar de lijn de y-as kruist, daarom ook wel de y-intercept genoemd).
Een regressieanalyse laat zien hoe een verband eruit ziet door een lijn te trekken door een puntenwolk (Figuur 1). Een negatieve regressielijn betekent een negatief verband en een positieve regressielijn (u raadt het al) een positief verband.
Een regressieanalyse laat zien hoe een verband eruit ziet door een lijn te trekken door een puntenwolk (Figuur 1). Een negatieve regressielijn betekent een negatief verband en een positieve regressielijn (u raadt het al) een positief verband.
Figuur 1. Basistypen lineaire regressielijnen
De kleinste-kwadratenmethode
Je vraagt je misschien af hoe deze rechte lijn tot stand komt. Bij elke dataset zijn er meerdere lijnen mogelijk waarmee je de “algemene trend” met het blote oog kunt optekenen. Om onze voorspellingen zo nauwkeurig mogelijk te maken, willen we echter dat een model zo goed mogelijk bij de data past. Daarom gebruiken we de kleinste-kwadraden methode (least squares). Met deze rekenmethode wordt de best passende lijn berekend bij een dataset. Met de best passende wordt die lijn bedoeld waarbij het totaal van de gekwadrateerde afwijkingen vanaf de lijn (sum of areas), verticaal gemeten, het kleinst is (Figuur 2). Met een dataset bedoelen we in dit geval een verzameling punten binnen het xy-vlak, waarvan wordt verondersteld dat zij min of meer op een rechte lijn liggen. Regressie-analyse kun je uitvoeren met een statistische analysetool, zoals SPSS.|
Tabel 3. Toetsvinder (Bron: AMC Clinical Research Unit)
Figuur 2. De best passende lijn met behulp van de kleinste-kwadratenmethode (Bron: dynamicgeometry.com)
Samenvattend, in Figuur 2 zien we alles terug wat we hierboven besproken hebben:
- Datapunten die min of meer in een (positieve) regressielijn vormen (met het blote oog is er al een patroon waarneembaar)
- Een berekening van de meest passende lijn met behulp van de kleinste-kwadratenmethode (oftwel: de laagste ‘sum of areas’)
- Een vergelijking die de best passende lijn weergeeft en daarmee de relatie tussen twee variabelen (y = 0.40x + 0.51)
- De helling of slope) (0.40)
- De y-intercept (0.51)
Hopelijk heeft dit artikel jou inzicht gegeven in de betekenis en mogelijkheden van regressie-analyse. Het is een waardevolle methode om oorzaak-gevolgrelaties te verkennen. Het is echter geen vervanging voor kritisch denken. Een lijn, een relatie tussen twee variabelen, hoeft immers niet het complete verhaal te vertellen (lees hier over het verschil tussen correlatie en causaliteit).
Sneller afstuderen? Het maximale uit je scriptie halen?
Maak gebruik van de scriptiehulp van de ScriptieMaster. Meld je hier aan voor een gratis en vrijblijvend oriëntatiegesprek.
Heeft dit jou geholpen? Deel het met anderen:
Bekijk meer artikelen
Heb je vragen over dit artikel?
Laat een comment achter
Heb je vragen over dit artikel? Laat een comment achter en een van onze
begeleiders zal hem zo spoedig mogelijk beantwoorden
Wij bieden scriptiebegeleiding aan studenten van o.a.:
Inmiddels hebben onze scriptiebegeleiders van nagenoeg iedere vol- en deeltijd opleiding in Nederland studenten mogen ondersteunen bij hun afstudeertraject! Ben je nieuwsgierig geworden welke begeleider jou het beste kan ondersteunen bij jouw specifieke opleiding, studie en onderwerp? Vraag dan een gratis adviesgesprek aan. Hopelijk tot snel!