Poszt-perturbációs génexpressziót prediktáló gépi tanulási modellek kiértékelése
Csendes Gerold1, Szalay Kristóf1 és Szalai Bence1 1 Turbine Kft Az egészséges és beteg sejtek működésének megértéséhez elengedhetetlen a sejtválaszok pontos előrejelzése perturbációs hatásokra. Míg a perturbációs sejt adatok ideálisak az ilyen prediktív modellek tanítására, az ilyen adatforrások sokkal szűkösebben állnak rendelkezésre, mint a natív (nem-perturbált) adatok. E limitáció enyhítésére az elmúlt időszakban több, nagy-nyelvi modellek (Large Language Model, LLM) által inspirált módszert is fejlesztettek. Ezeket a modelleket nagy, címkézetlen (natív) egy sejt RNS szekvenálási adaton tanítják, majd specifikus feladatokra, mint például poszt-perturbációs génexpressszió profilokra finomhangolják (fine-tuning). Habár ezek a modellek érik el a legjobb kiértékelési metrikákat (SOTA), az eredmények kontextusba helyezése és benchmarkolása jelenleg is egy megoldatlan probléma.Munkánk során egy ilyen modell, az scGPT benchmarkolásával foglalkoztunk és több egyszerű modellel is összemértük. Meglepetésünkre azt tapasztaltuk, hogy az egyszerű modelljeink jobban teljesítettek, mint az scGPT. Továbbá, megállapítottuk, hogy a benchmark adatszetek alacsony perturbáció-specifikus varianciát hordoznak. Emiatt csak limitáltan alkalmasak valódi modell generalizáció mérésére. Az eredményeink felhívják a figyelmet a jelenlegi benchmarkok limitációira és ötleteket ad arra, hogyan érdemes a poszt-perturbációs génexpressziós feladatokat kiértékelni.