Tilastomatemaattisilla menetelmillä voidaan tuottaa reaaliaikaisesta tietoa koronaviruksen aiheuttamasta taudista ja niiden avulla pystytään saamaan varsin luotettavasti tietoa niistä varhaisen vaiheen oireista, jotka ennustavat parhaiten vakavaa tautimuotoa COVID-19 sairaudesta. Tässä artikkelissa kuvaan pintaraapaisuna, mitä mahdollisuuksia data-analyysit voisivat tuoda tähän vallitsevaan tilanteeseen. Näkemykseni on että SARS-CoV2 -virus selätetään hyvin organisoidulla rekisteritutkimuksella, joka on koordinoitu maailmanlaajuisesti. Tukimustietoa tarvitaan vielä runsaasti niistä riskitekijöistä, jotka altistavat COVID-19 potilaat tehohoitoon.
Eri lähteissä on jo tehty näitä COVID-19 potilaiden oireisiin liittyviä analyysejä ja varsin luotettavana voisi pitää New Yorkin yliopistossa tehtyä analyysiä niistä oireista, jotka luotettavasti ennustivat taudin etenemistä vaikeaan tilaan. ALT entsyymin kasvu (alaniiniaminotransferaasi), kova lihaskipu (MYALGIA). Kolmantena selittävänä muuttujana todettiin tässä tutkimuksessa olleen korkea hemoglobiiniarvo (B-Hb). ALT -arvon nousu on siinä mielessä mielenkiintoinen muuttuja, koska siinä tapahtuu muutos yleensä hyvin varhaisessa vaiheessa, ennen kuin muut elimelliset oireet alkavat.
Toimenpiteiden määräytyminen varhaisten signaalien perusteella
Mitä hyöty on sitten tietää varhaisessa vaiheessa olevan COVID-19 sairauden kehittymistä vaikeaan tautimuotoon? Suurin hyöty lienee se, että näin lääkärit pystyvät näiden merkkien perusteella ryhmittelemään suuren joukon tartunnan saaneita ja lievästi oirehtivia potilaita jo ennalta. Hoidon ja tarvittavan laitekapasiteetin suunnittelu helpottuu ja pystytään paremmin antamaan oikea-aikaista hoitoa näille ryhmille.
Ryhmittelyanalyysit ovat varsin arkipäiväisiä asioita tilastoanalyysien tekijöille. Olen itsekin näitä ryhmittelyitä tehnyt suurelle potilasjoukolle ja tuolloin yllätyin itsekin menetelmän tehokkuudesta varsinkin, kun data-aineiston alkutilanteessa oli tarvetta tutkia kymmenien taustamuuttujien vaikutusta haluttua muuttujaa vasten. Käytännössä analysonti data-aineiston suhteen etenee aina tietyn proseduurin mukaan. Tarvitaan vain tieto, mitä muuttujaa vasten halutaan saada selittäjämuuttujien analyysi. Yleensä tähän vaiheeseen osallistuu suuri joukko asiantuntijoita, joiden asiantuntemusta käytetään parviälytyyppisesti. Asiantuntijajoukko luo ja määrittää reunat muuttujavalinnoille ja data-analyytikko tuottaa sitten alustavat tulokset näiden määritysten mukaisesti.
On toki tullut itsellekin tilanteita vastaa, joissa tämäkään lähestymistapa ei tuota onnistunutta lopputulosta vaan joudutaan tekemään iteratiivista data-analyysiä usealla eri muuttujayhdistelmällä. Tähän ja muihinkin data-analyysien tekoon löytyvät huikeat työkalut mm. R-ohjelmakirjastoista.
Datan laatu ja saanti ovat sellaisia tekijöitä, joiden kanssa data-analyytikot yleensä taistelevat eniten ja osittain näiden tekijöiden johdosta joudutaan tekemään kompromisseja. En kuitenkaan usko, että tässä COVID-19 potilasjoukon tarkastelussa tulisi mitään rekisteritutkimuslupiin liittyviä ongelmia, koska kaikkien etuhan on, että tautiin löydetään parannuskeino ja se hyöty, jonka rekistesteritutkimus voi asiaa kohtaan tuoda on kansanterveyden kannalta huomattavan suuri.
Datan käsittelyyn kuuluu myös merkityksettömien muuttujien poissulkemisia, jotta mukaan otetaan vain sellaiset muuttujat, jotka parhaiten kuvaavat selitettävää muuttujaa. Poissulkemiseen löytyy useita menetelmiä, mutta yksinkertaisimmillaan regressiomallinnuksella päästään hyvään lopputulokseen. Initiaalimallin avulla haetaan maksimaalista R-arvoa, eli sellaista muuttujamixiä, joka parhaiten selittää selitettävän muuttujan käyttäytymistä suhteessa selittäjämuuttujiin.
Ryhmittelyanalyysiä
Suuresta joukosta regressioanalyysin muuttujaryhmistä valitaan sitten sellaiset ryhmät tai vain pelkästään yksi muuttujaryhmä, johon voidaan kohdistaa esim. k-means -menetelmällä ryhmittelyanalyysi. K-means menetelmässä haetaan muuttujien havainnoista sellaisia dataryhmiä, jotka eniten ”muistuttavat toisiaan” tai jotka syystä tai toisesta ovat havaintoja samassa ryhmässä vaikkakin ovat eri muuttujian havaintoja. Näiden väliltä löytyy siis jokin yhteinen ”tekijä”, jonka johdosta kyseiset havainnot ovat samassa ryhmässä. Huomautettakoon tässä kohtaa, että rajauksena tässä olisivat vain sellaiset yksilölliset havaintorivit, jotka kuuluvat COVID-19 diagnoosin saaneille.
Riskitekijöiden laajempi tarkastelu on kansallisesti ja kansainvälisesti laajemman rekisteritutkimuksen paikka ja se voidaan tilanteen vakavuudesta riippuen kohdistaa, joko koko väestöön tai vain tiettyyn ennalta määritettyyn riskiryhmään. Tästä asiasta kerron lisää toisessa artikkelissani.
Klusterointia
Yhteisen tekijän omaavaa havaintojoukkoa voidaan kutsua tässä vaikka klustereiksi. Mikäli kysymyksessä olisi COVID-19 potilaan havaintoaineisto, niin siinä olisi tyypillisesti iän ja sukupuolen lisäksi taustamuuttujina tartunnan saantiaika, mahdollisesti vähäoireisuusaika ja sitten tarkempaa tietoa siinä vaiheessa, kun potilas on siirretty osastohoitoon tai mahdollisesti tehohoitoon. Tehohoidon osalta jokaisesta hoidettavasta potilaasta löytyy valtava määrä dataa aina kehon lämpötilasta lukuisiin laboratorianalyyseihin verenkuvasta jne. Terveyden- ja sosiaalihuollon, Kelan reseptitietokannan rekisteritietojen yhdistäminen on myös jossain vaiheessa oleellista, mutta tästäkin kokonaisuudesta kirjoittelen sitten myöhemmin.
Selitettävänä muuttujana vaikea COVID-19 sairaus
Näitä muuttujajoukkoja (klustereita) voidaan ajaa sitten regressio tai neuroverkkotekniikoilla vasten selitettävää muuttujaa. Tässä tapauksessa selitettävä muuttuja on yksinkertaisesti kaikki ne tapaukset, joilla ilmeni vaikea COVID-19 sairaus ja joka johti tehohoitoon tai sitten joissakin tapauksissa kuolemaan. Se klusteri, joka sai korkeamman R-arvon (selitysasteen) pääsee jatkoon eli tuohon klusteriin liittyviin havaintoriveihin (potilaisiin) kohdistetaan tutkimuksellisesti eniten panostuksia. Tämä ryhmä määrittää myös myöhemmin ns. riskiryhmäarvioinnin, joka mahdollisesti voi olla alueellisestikin erilainen eri osissa maata. Saattaa toki olla, että nykyisiin riskiryhmämääritelmiin ei tämä tutkimus toisi mitään uutta, mutta tässä lähestymistavassa uutuus olisikin se, että riskiryhmään lukeutuvat pystytään identifioimaan ja heille voidaan antaa räätälöityjä ohjeistuksia miten tilanteessa kannattaa toimia.
Malminkartanossa 16.4.2020, Marko Ekqvist DI, tekoälytutkija
ps. mikäli artikkeli herätti kysymyksiä, niin voit lähettää kysymykset suoraan viestipalveluun tai soita numeroon +358 45 1200 944