Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät

Koulutustilastot kehittyvät, hankalasti tulkittavat tilasto­luvut säilyvät

6.10.2021
Twitterissä: @mika_witting
Kuva: Aki Harju

Tilastokeskuksen ja erityisesti koulutus­tilastojen työnkuvaan on vuosikymmenten ajan kuulunut koulutus­tietojen keruu, tarkistaminen, korjaaminen, käsittely ja raportointi. Käytännössä Tilastokeskus on siis vastannut koko koulutus­tilastojen tuotanto ja jakelu­prosesseista. Tietoja on toimitettu opetushallinnon ylläpitämään Vipunen-tilastopalveluun, kansainvälisiin vertailuihin sekä lukuisille muille toimijoille.

Ajat kuitenkin muuttuvat ja niin myös Tilastokeskuksen rooli koulutus­tilastojen tuottamisessa. Korkeakoulu­tilastojen osalta suorista on tiedonkeruista luovuttu jo vuosina 2014-2015 ja tiedot tulevat Tilasto­keskukselle korkeakoulujen valtakunnallisen tietovarannon (VIRTA) kautta.

Vuonna 2019 Opetushallitus otti käyttöön Kansallisten opiskelu­oikeuksien ja suoritusten keskitetyn integraatio­palvelun (KOSKI), johon tallennetaan henkilö­pohjaisina kaikki koulutustiedot esi- ja perusopetuksesta toisen asteen koulutukseen. Tilastokeskus on lakkauttanut sen myötä suoria tiedonkeruita opetuksen ja koulutuksen järjestäjille niiden tietojen osalta, jotka sisältyvät KOSKI-tietovarantoon.

Tiedonkeruiden osalta Tilasto­keskuksella ei siis ole tehtävänä enää muuta kuin täydentäviä keruita niiltä osin, joilta KOSKI tai VIRTA eivät kata koko koulutuskenttää.

KOSKI-tietovarannon käyttöönotto tuo mukanaan parempia analyysi­mahdollisuuksia, minkä lisäksi tilastotuotantoa pystytään automatisoimaan enemmän. Ensimmäistä kertaa on mahdollista tuottaa rekistereiden avulla henkilö­pohjaisia tilastoja esi- ja perusopetuksesta, mikä avaa uusia mahdollisuuksia ymmärtää esimerkiksi koulutuksen periytymistä ja siihen liittyviä merkittäviä nivelvaiheita.

Valitettavasti yksi asia ei kuitenkaan muutu: samasta ilmiöstä pystytään edelleen tuottamaan kahdet eri tilastoluvut. Tilastontekijänä on syytä siis varautua edelleen vastaamaan asiakkaiden tiedusteluihin, miksi Vipusen luvut poikkeavat Tilasto­keskuksen luvuista, vaikka tilastoitava ilmiö ja tilastointi­päiväkin on sama. Lienee syytä avata hieman problematiikkaa kaksien eri tilastolukujen taustalla.

Opetushallinto julkaisee Vipunen-tilasto­palvelussa kahdenlaista KOSKI-tietovarantoon perustavaa raportointia: jatkuvasti päivittyviä liveraportteja sekä jäädytettyjä raportteja, jotka perustuvat Tilasto­keskuksen kanssa tehtyyn tietopalvelu­sopimukseen ja pyrkivät jatkamaan aikasarjoja. Liveraportit kuvaavat nimensä mukaisesti ajantasaista tilannetta KOSKI-tietovarannossa, myös taaksepäin menneisyyteen. Miksi liveraporttien luvut voivat poiketa paljonkin jäädytetyistä luvuista:

  • Tietovarantojen toteutuksissa on eroja. Tilasto­keskukseen haetaan KOSKESTA kaikki suoritus- ja opiskelutiedot sekä näihin liitetyt muutokset. Toisin sanoen Tilasto­keskuksessa on mahdollista päätellä henkilö ylimmälle vuosiluokalle sellaisissa tapauksissa, joissa opiskelijalla on päättämättömiä suorituksia alemmilla vuosiluokilla. Vipusen raporteilla tieto uuden vuosiluokan aloittamisesta jyrää edellisen vuosiluokan tiedon, mikäli sitä ei ole merkitty KOSKI-tieto­varantoon päättyneeksi. Näin ollen henkilö ei enää sisälly edellisen vuoden oppilasmääriin.
  • Tilastokeskuksella ja Vipusella on erilaiset perusjoukot tietokannoissaan. KOSKI kattaa vain opetus­hallinnon alaiset koulutuksen järjestäjät, kun Tilasto­keskuksen tiedot kattavat kaikki koulutuksen järjestäjät. Opetushallinnon alaisuuteen kuulumattomien koulutuksen järjestäjien osalta Tilastokeskus kerää tiedot edelleen erilliskeruilla.
  • Tilastokeskus tekee KOSKI-dataan useita tarkistuksia ja tarvittaessa korjaa tietoja. Henkilö­tunnuksista tarkistetaan tunnuksen muodon oikeellisuuden lisäksi välimerkit, jotka korjataan oikeiksi. Täten saadaan myös parannettua väestötason taustamuuttujien (esim. kotikunta, kansalaisuus, äidinkieli) kattavuutta, sillä yhdistäminen väestörekisterin tietoihin tehdään henkilö­tunnuksen avulla. Tausta­muuttujien osalta Tilastokeskus käyttää vuoden viimeisen päivän tietoja, kun Vipunen-tilastopalvelun luvuissa käytössä on reaaliaikainen tieto.
  • Tilastokeskus vertaa koulutustietoja omiin rekistereihinsä ja korjaa havaitsemansa virheelliset tiedot oikeiksi. Ylimääräiset tupla­opiskeluoikeudet poistetaan, lukio­koulutuksen opiskelijoista poistetaan ylioppilas­tutkinnon jo suorittaneet, minkä lisäksi koulutuksen aloittamis­aikoihin tehdään korjauksia aiempien rekisteri­aineistojen perusteella.

Kuinka suurista eroista sitten on kyse vaikkapa perusopetuksessa? Alla on taulukoituna perusopetuksen oppilaat vuosiluokittain.

Taulukko 1. Perusopetuksen oppilaat vuosiluokittain Tilastokeskuksen ja Vipusen mukaan
2020   Tilastokeskus  Vipunen    
Yhteensä 555 284 534 945
1. vuosiluokka  60 297 57 348
2. vuosiluokka 61 509 58 971
3. vuosiluokka 61 724 60 075
4. vuosiluokka 63 164 61 299
5. vuosiluokka 62 621 60 366
6. vuosiluokka 62 049 58 818
7. vuosiluokka 61 310 58 977
8. vuosiluokka 62 115 58 695
9. vuosiluokka 60 495 60 396

Lähteet: Vipunen
Tilastokeskus, Opiskelijat ja tutkinnot, Esi- ja perusopetus

Käytännössä erot ovat siis muutaman tuhannen luokkaa vuosiluokkaa kohden. Lukijaa saattaa mietityttää, onko esimerkiksi 3. vuosiluokan oppilaiden 1 600 oppilaan erolla minkälaista vaikutusta. Asiaa voidaan esimerkin­omaisesti tarkastella osallistumis­asteiden kautta. Osallistumis­asteella tarkoitetaan sitä osuutta ikäluokasta, joka on perusopetuksen piirissä. Koulutuksessa olevien määrää verrataan samanikäiseen väestöön.

Suurin osa 3.vuosiluokan oppilasta on 9-vuotiaita. 9-vuotiaita oli Suomen väestössä 31.12.2020 yhteensä 62 400. Vertaamalla 3. vuosiluokan oppilaiden määriä tähän kantalukuun saadaan osallistumis­asteiksi Tilastokeskuksen luvuilla 99 ja Vipusen luvuilla 96 prosenttia. Kolmen prosentti­yksikön ero oppivelvollisuus­ikäisiä tarkasteltaessa on huomattava.

Kahdet eri tilastoluvut tuovat omat haasteensa lukujen tulkitsemiseen. Tilastokeskus julkaisee virallisia tilastoja, mutta luvut tulevat viiveellä, sillä tietojen tarkistaminen ottaa oman aikansa. Vipusessa julkaistavat live-raportit puolestaan mahdollistavat lähes reaaliaikaisen koulutus­tilastoinnin.

Molemmille tarkasteluille on käyttötarpeensa. Erilaiset näkökulmat laajentavat ja rikastavat mahdollisuuksia tarkastella koulutusilmiötä, mutta voivat myös hämmentää tietojen käyttäjiä.

Tilastokeskus tekee tiivistä yhteistyötä opetushallinnon kanssa, jotta tietojen erot olisi esitetty mahdollisimman selvästi ja tilastotiedot olisivat mahdollisimman yhteneviä. Täysin samoihin tilastolukuihin pääseminen on kuitenkin haasteellista tilastoinnin eroavuuksien takia.

 

Kirjoittaja työskentelee yliaktuaarina Tilastokeskuksen koulutus­tilastoissa.

Blogikirjoitukset eivät ole Tilastokeskuksen virallisia kannanottoja. Asiantuntijat kirjoittavat omissa nimissään ja vastaavat kukin omista kirjoituksistaan.

Lue samasta aiheesta:

Artikkeli
19.3.2024
Jaana Huhta

Meneillään olevan verkkouudistuksemme tavoitteena on tarjota tilastoja nykyaikaisemmassa ja helpommin löydettävässä muodossa erilaisille tilastonkäyttäjille. Tilastojen julkistamisen johtotähtenä on: data ensin. Teksti rakentaa tilastoille merkityksen. Jotta kaikki pääsevät yhtä vaivattomasti tilastojen äärelle, tulee kaikessa tilastokirjoittamisessa käyttää selkeää ja ymmärrettävää kieltä.

Blogi
16.2.2024
Markus Sovala

Suomen tilastojärjestelmä ylsi ykkössijalle 186 valtiota kattaneessa vertailussa. Tilastokeskuksen pääjohtaja löytää kolme perustetta Suomen menestykselle Maailmanpankin arviossa.

Blogi
1.9.2023
Maija Metsä

Kesälomani lopulla seurasin sivusilmällä lukiolaisnuoren pakkausruljanssia. Edessä oli vaihto-oppilasvuosi ja lähtöön muutama päivä. Mahtuisiko matkaan myös taskullinen tietoa Suomesta?

Blogi
2.5.2023
Tapio Kuusisto

Talouden keskeiset mittarit näyttävät isoja ja risti­riitaisiltakin vaikuttavia muutoksia. Tilastojen päälinja lienee oikea, mutta lukuihin voi laskennan tarkentuessa tulla revisioitakin, kun talouden rakenteessa on tapahtunut muutoksia. Tarkentumisten suuntaa ei pysty ennakoimaan, se vaihtelee eri vuosien välillä.  

tk-icons