In Nederland is bij het CBS een unieke verzameling van data beschikbaar. Deze data is op geaggregeerd (groeps) niveau publiek toegankelijk. Als gelicenseerde instelling heeft ahti ook toegang tot veel preciezere data, namelijk de onderliggende brondata op (gepseudonimiseerd) persoonsniveau. Op basis van deze bronbestanden is door ahti een geïntegreerde analyseomgeving ontwikkeld waar demografische en sociaaleconomische kenmerken van burgers gecombineerd met gedetailleerde informatie over gebruik en kosten van zorg en ondersteuning voor onderzoeks- en beleidsvragen kunnen worden ingezet.
Dit is onze HealthInsights-analyseomgeving. Binnen de regelgeving van CBS, kan ahti partijen in het zorgdomein ondersteunen bij het inzetten van de analyseomgeving om te komen tot beter toegankelijke zorg, met hogere kwaliteit en lagere kosten. De vormen van ondersteuning variëren van ‘toegang tot de data’ tot ‘gezamenlijke interventieontwikkeling’.
Afgelopen jaar konden wij studente Ilse Leek helpen in haar onderzoek door toegang te verlenen tot onze HealthInsights-analyseomgeving. Lees hieronder meer over haar onderzoek met CBS microdata.
Kun je iets over jezelf vertellen?
Ik ben Ilse. Ik ben 22 jaar en ben in juli afgestudeerd aan de HvA van mijn studie Toegepaste Wiskunde. Sinds begin van deze maand ben ik begonnen aan het Traineeship Informatiemanagement bij Modis Tech Academy in Leusden.
Waar ging jouw onderzoek over?
Mijn afstudeeronderzoek was gericht op ouderen in de stad Amsterdam. In het onderzoek is met een aantal, verschillende, modellen berekend wat het risico was voor deze groep ouderen op een ongeplande ziekenhuisopname (een acute, klinische opname die gestart is op de Spoedeisende Hulp). In mijn onderzoek was ‘kwetsbaarheid’ gedefinieerd als een grote kans op een ongeplande opname.
Elk model keek naar bepaalde eigenschappen die mogelijk invloed hadden op het risico om wel of niet ongepland te worden opgenomen. Ik heb gebruik gemaakt van twee datasets: één trainset en één testset. Een trainset wordt gebruikt om het model te creëren. Er kunnen vervolgens met dat model voorspellingen worden gemaakt door in het model data in te voeren. In dit onderzoek zijn zowel met de train- als de testset voorspellingen gemaakt. De trainset bestaat uit personen die op 31 december 2018 in Amsterdam woonden en 65+ waren en op 31 december 2017 in Nederland woonden. Iemand is bestempeld als kwetsbaar als deze in 2018 minimaal 1x ongepland is opgenomen. De testset bestaat uit personen die op 31 december 2019 in Amsterdam woonden en 65+ waren en op 31 december 2018 in Nederland woonden. Iemand is bestempeld als kwetsbaar als deze in 2019 minimaal 1x ongepland is opgenomen.
Ik heb gebruik gemaakt van 5 bestaande modellen, waarvan bij 3 modellen de voorspellingen correct zijn gemaakt. Met deze modellen is voor elke persoon in de dataset de kans op een ongeplande opname voorspeld en daarbij is gekeken naar eigenschappen zoals leeftijd, gebruik van wijkverpleging, een WMO-indicatie en een ziekenhuisopname in een eerder jaar. Na het voorspellen van de kansen is er een groep ouderen met de grootste kans aangeduid als kwetsbaar. Daarbij is gekeken in hoeverre de modellen een oudere correct aanduidde als wel of niet kwetsbaar. Als er met de trainset voorspellingen worden gedaan, is 18-20% van de 10.000 aangeduide kwetsbare ouderen daadwerkelijk opgenomen, en zit 30-32% van de ouderen die in het ziekenhuis belandden in de top 10.000. Als er met de testset voorspellingen worden gedaan, is 17-18% van de 10.000 aangeduide kwetsbare ouderen daadwerkelijk opgenomen, en zit 27-28% van de ouderen die in het ziekenhuis belanden in de top 10.000. Ik heb ook gekeken naar hoe je de groepen kwetsbaren kunt indelen (10.000 vs. 2000 vs. 1000) en of dat iets veranderde aan de verhoudingen. Als de groep kleiner wordt gemaakt, wordt het aandeel ouderen daarbinnen dat daadwerkelijk is opgenomen groter. Van het aantal ouderen dat daadwerkelijk is opgenomen, wordt het aandeel dat in de groep zit, kleiner.
Had je van tevoren verwachtingen die niet of juist wel uitkwamen? Of waren er opmerkelijke uitkomsten?
Ik had van tevoren een aantal verwachtingen over wat van invloed zou kunnen zijn, zoals migratieachtergrond, een WLZ-indicatie of dat mensen alleen of met anderen wonen, maar een aantal verwachtingen bleken niet (significant) te kloppen. Ook zag ik dat bijvoorbeeld dat mannen een verhoogde kans hebben om in het ziekenhuis te belanden, terwijl je ziet dat er meer oudere vrouwen in de populatie zitten omdat zij langer leven. Dat soort uitkomsten zijn interessant. Ik ben benieuwd waarom dat is, of daar een verdere logica achter schuilt.
Welke aanbevelingen heb je gedaan?
Ik denk dat als je iets meer variabelen toevoegt om het model wat uitgebreider maken, je ook betere voorspellingen kan doen wie er ongepland in het ziekenhuis kan belanden. Bijvoorbeeld als je meer informatie hebt over bepaalde diagnoses die mensen hebben gekregen, of de soort WLZ-indicatie die ze hebben en of ze thuiszorg ontvangen of niet. Bijvoorbeeld ook waar iemand woont, in welke wijk, zou invloed kunnen hebben. Als je meer van dit soort variabelen kunt bekijken, dan zou je betere voorspellingen kunnen maken. Ook moet er meer onderzoek worden gedaan naar verbanden tussen de risicofactoren.
Hoe vond je het om te werken met CBS microdata?
Ik deed mijn stage bij de HvA en kreeg toegang tot de data via Ahti. Het was fijn dat Rachel mij veel kon helpen in de praktische hulp richting CBS rondom contracten en verklaringen. Het werken met CBS data is een mooie ervaring. Het is bijzondere data, omdat je data op individueel niveau kunt gebruiken en dat heb je bij andere openbare datasets niet. Soms zie je bijvoorbeeld in een openbare dataset wel dat er in een wijk WMO wordt gebruikt en hoeveel mensen er gebruik van maken, maar je ziet niet wat voor kenmerken deze mensen hebben. Dit is bij CBS data wel het geval, dus dat is heel waardevolle data om inzichten uit te halen.
Ik ben heel dankbaar dat ik dit onderzoek heb kunnen doen en toegang kon krijgen tot deze data. Ik denk dat het door het gebruik van deze data een mooi onderzoek is geworden met maatschappelijke impact.