Schattingsproces

In het schattingsproces wordt het verband bepaald tussen de diverse stromen enerzijds en een aantal mogelijke verklarende variabelen anderzijds. De relaties die zo ontstaan kunnen worden gebruikt om prognoses mee te maken. Voor het schatten gebruiken we gegevens over de laatste vijf jaren stromen. Voor het maken van ramingen wordt verondersteld dat de vastgestelde verbanden ("vergelijkingen") ook in de toekomst stabiel blijven.

In het algemeen geldt dat een verklarende variabele een rol speelt in een vergelijking indien de statistische schattingsprocedure (OLS indien het gaat om een lineaire vergelijking, logit, ordered logit) een coëfficiënt oplevert die significant van nul afwijkt, dat wil zeggen, indien de betreffende variabelen afzonderlijk of, met name in het geval van de regionale variabelen, gezamenlijk, een statistisch significante bijdrage aan de verklaring van de grootheid in kwestie leveren.

Op de volgende, onderliggende, pagina's wordt nog ingegaan op selecties die bij het schatten gepleegd moeten worden, op gebruikte variabelen en op correctiefactoren die nodig zijn om rekening te houden met ontbrekende gegevens in het formatiebestand.

Selecties

Het vaststellen van het verband tussen stroomgrootheid en de verklarende variabelen (het schatten van de vergelijkingen) vindt plaats op een relevante selectie van de waargenomen taken. De uitstroom wordt bijvoorbeeld afzonderlijk geschat voor ouderen (58 en ouder) en de groep jonger dan 58 jaar. Taakveranderingen kleiner dan 0,0125 fte buiten beschouwing gelaten. Een stroom tussen jaar $t-1$ en jaar $t$ is alleen een stroom indien de betreffende instelling in zowel jaar $t-1$ als jaar $t$ wordt waargenomen. Er wordt met behulp van correctiefactoren gecorrigeerd voor instellingen die in één van deze jaren niet aanwezig zijn in het formatiebestand. Het gaat hier doorgaans om non-respons.

Gebruikte variabelen

In Mirror speelt een groot aantal variabelen een rol. Deze wisselen per vergelijking, afhankelijk van statistische en/of economische relevantie in het verleden. Stromen met weinig waarnemingen worden in het algemeen met minder variabelen voorspeld omdat in de schatting van de betreffende vergelijking minder coëfficiënten significant zijn. Vanwege het grote aantal variabelen wordt hier voor het moment slechts een indruk van de gehanteerde variabelen gegeven. We kunnen daarbij een classificatie aanbrengen in:

  • Variabelen op taakniveau: betrekkingsomvang, omvang van de deelname in de seniorenregeling, dummy voor een full-time aanstelling, inschaling (schaal en periodiek, gedefleerd bruto salaris), dummy voor maximum periodiek, vak.
  • Variabelen op persoonsniveau: leeftijd(scategorie), geslacht, totale betrekkingsomvang van alle taken van de persoon, aantal taken.
  • Variabelen op schoolniveau: aantal leerlingen, groei van het aantal leerlingen, aantal fte in een bepaalde functie, denominatie, schooltype, gemiddelde betrekkingsomvang op de school, percentage uitstroom uit een bepaalde functie.
  • Variabelen op regionaal niveau: werkloosheid, regionale onvervulde vraag in het voorafgaande jaar, aandeel leraren werkend aan een school van een specifiek schooltype in het totaal aantal fte leraren in de regio.
  • Variabelen op landelijk niveau: conjunctuurindicator.

 

Correctiefactoren

Een per jaar verschillend aantal instellingen levert niet of in het onjuiste formaat of niet tijdig de benodigde informatie voor het formatiebestand op. Als gevolg daarvan wordt een deel van taakveranderingen, taakverlies en functieverandering in het schattingsproces ten onrechte gezien als onderdeel van de instroom dan wel de uitstroom. Hierdoor worden in- en uitstroom overschat, terwijl taakveranderingen, taakverlies en functiewijziging onderschat worden. Om hiervoor te corrigeren, gebruiken we correctiefactoren.