Syöpärekisterin työkalu louhii Gleasonin pisteet esiin patologian raporttien tekstimassasta

Gleasonin pisteet ovat eturauhassyövän vaarallisuuden mittari, joka vaikuttaa sekä potilaalle annettuun hoitoon että hänen ennusteeseensa. Koska eturauhassyöpä on miesten yleisin syöpä, Gleasonin pisteitä sisältäviä patologian raportteja on paljon, mutta tiedon saaminen teksteistä on työlästä ilman koneellista tekstinkaiveluratkaisua. Suomen Syöpärekisterissä kehitettiin Gleasonin pisteiden koneelliseen poimintaan toimiva ja tieteellisesti vertaisarvioitu työkalu.

Syöpärekisterin kehittämä työkalu on säännöllisiin lausekkeisiin (regex) perustuva tietokoneohjelma. Säännölliset lausekkeet ovat yksinkertainen tapa ilmaista, minkä näköisiä tekstin osia tietokoneohjelma poimii.

– Valitsimme Gleasonin pisteiden systemaattisen poiminnan avaukseksi Syöpärekisterin tietosisällön kehittämiseen. Paremmalla tiedon hyödyntämisellä voimme tukea myös paremmin suomalaista syöpätutkimusta, Suomen Syöpärekisterin tilastojohtaja Janne Pitkäniemi kertoo.

Työkalu löytää Gleasonin pisteet monimutkaisissakin muodoissa

Gleasonin pisteiden säännöllisiin lausekkeisiin perustuvaa poimintaa on tutkittu aiemminkin muutamissa ulkomaisissa syöpärekistereissä. Poiminnan kohteena oli tuolloin kuitenkin yksinkertaisin tavoin ilmaistut Gleasonin pisteet.

– Meidän aineistossamme Gleasonin pisteiden ilmenemismuodot olivat monimutkaisia ja pistemääriä oli monissa teksteissä useita. Kun Gleasonin pisteet esiintyvät tekstissä vaihtelevin tavoin, lähtökohta tietokoneohjelman toteuttamiselle on erilainen ja se vaatii enemmän työtä. Tutkimuksemme oli ensimmäinen, joka osoitti, että säännöllisiä lausekkeita voi kehittää poimimaan luotettavasti myös monimutkaisesti ilmaistuja Gleasonin pisteitä, tutkija Joonas Miettinen toteaa.

Syöpärekisterin kehittämä työkalu sopii hyvin patologian raporttien tekstinkaiveluun, sillä säännöllisten lausekkeiden ansiosta sitä on helppo muokata, hyödyntää tuotannossa, ja se käsittelee tekstiä nopeasti. Suomen Syöpärekisteri aikoo käyttää työkalua Gleasonin pisteiden keräämiseen rakenteiseksi tiedoksi eturauhassyövän patologian ilmoituksista.

Syöpärekisterin Gleasonin pisteiden kaiveluun tekstistä kehittämä tietokoneohjelma on kokonaisuudessaan saatavilla verkossa osoitteessa https://github.com/wetrobot/gleason_extraction.

Tutkimus on julkaistu Journal of Biomedical Informatics -lehdessä kesäkuussa 2021 ja sen rahoitti Syöpäsäätiö.

Lisätietoja:
Janne Pitkäniemi, janne.pitkaniemi@cancer.fi, 050 372 3335
Joonas Miettinen, joonas.miettinen@cancer.fi, 050 567 1350
Accurate pattern-based extraction of complex Gleason score expressions from pathology reports: https://doi.org/10.1016/j.jbi.2021.103850