Josip Vrdoljak
Ime i prezime: dr. sc. JOSIP VRDOLJAK, dr. med.
Naslov disertacije: „MODELI STROJNOG UČENJA ZA PREDVIĐANJE METASTAZA U LIMFNE ČVOROVE U BOLESNIKA S RAKOM DOJKE”
Mentor: izv. prof. dr. sc. JOŠKO BOŽIĆ
Datum obrane: 29. svibnja 2023.
Poveznnica: https://neuron.mefst.hr/docs/graduate_school/ebm/Pred%20obranom/VrdoljakJ_disertacija_final_s_ispravcima.pdf?vel=1900167
Kvalifikacijski znanstveni radovi za doktorsku disertaciju:
Vrdoljak J, Boban Z, Barić D, Šegvić D, Kumrić M, Avirović M, Perić Balja M, Periša MM, Tomasović Č, Tomić S, Vrdoljak E, Božić J. Applying Explainable Machine Learning Models for Detection of Breast Cancer Lymph Node Metastasis in Patients Eligible for Neoadjuvant Treatment. Cancers (Basel). 2023;15(3):634.
doi: 10.3390/cancers15030634.
SAŽETAK:
Uvod: Određivanje statusa pazušnih limfnih čvorova iznimno je važno za prognozu bolesti i pravilan odabir liječenja kod bolesnika oboljelih od raka dojke. Kod bolesnika određenih za neoadjuvantno sustavno liječenje (NST) klinički pregled i radiološke metode su primarni način određivanja statusa pazušnih limfnih čvorova. Takve metode dovode do čak 30% krivo dijagnosticiranih slučajeva, čime se ukazuje potreba za dodatnim metodama. Zbog sve veće dostupnosti podataka u onkologiji, metode strojnog učenja su idealan oblik za poboljšanje dijagnostike pazušnih limfnih čvorova u raku dojke.
Cilj ove disertacije je treniranje i validacija modela strojnog učenja (Slučajna šuma, XGBoost, TabNet Linearna regresija i KNN) na kliničko-patološkim podacima, kojima je svrha točna klasifikacija metastatskih pazušnih limfnih čvorova.
Ispitanici i metode: U ovo istraživanje su uključeni su anonimizirani podaci od ukupno 13580 bolesnika liječenih od raka dojke. Uzorak čine ispitanici liječeni od raka dojke u 25 hrvatskih bolnica u razdoblju od siječnja 2017. godine do siječnja 2022. godine. Kroz navedeno razdoblje podaci su prikupljani iz bolničkih informacijskih sustava (BIS), tako što su pretraživani svi bolesnici s MKB šifrom 50 (za rak dojke). Uključeni su svi ispitanici s potpunim podacima (PHD, status LČ, ER, PR, HER2, Ki67, veličina tumora, dob). Izbačen je dio ispitanika s nepotpunim podacima (nedostatak neke od ulaznih varijabli), nakon čega je preostalo 9705 ispitanika. Među tim ispitanicima njih 1324 je inicijalno primilo NST zbog čega su također izbačeni iz analize. Naposljetku, nakon primjene kriterija za NST, identificirano je 719 ispitanika za završnu analizu, optimizaciju i validaciju prediktivnih modela. Također, izrađeni su i modeli na cjelokupnoj populaciji s potpunim podacima (n= 8381). Optimizacija hiperparametara modela izvršena je tehnikom 5-grupne križne validacije. Validacija modela izvršena je tehnikom „bootstrap“ na „test“ setu podataka. Analiza važnosti prediktora i procesa donošenja odluke modela izvršena je SHAP tehnikom.
Rezultati: U skupini koja ispunja NST kriterije najbolje performanse je pokazao model Slučajna šuma s srednjim AUC od 0.793 (95% IP: 0.713-0.865), dok je XGBoost imao najbolju performansu na ukupnoj populaciji s srednjim AUC od 0.762 (95% IP: 0.726-0.794). Analiza Shapley vrijednosti je pokazala kako je najvažniji prediktor veličina tumora, praćena Ki-67 indeksom, dobi ispitanika i gradusom tumora. Povezanost metastaza u pazušne limfne čvorove i veličine tumora linearno raste do veličine od 5 cm, nakon koje se postiže plato. Povezanost Ki67 s metastazama u pazušne LČ raste do Ki-67 od 75%, nakon čega se prati pad, ali prvenstveno za trostruko negativni tip raka dojke. Slučajna šuma i XGBoost postižu značajan napredak u performansama naspram bazičnog modela univarijatne logističke regresije (trenirane samo na veličini tumora).
Zaključak: Ovo istraživanje je pokazalo kako objašnjive metode strojnog učenja temeljene na stablu odluke, trenirane na kliničko-patološkim značajkama dobivenim tijekom redovitih predoperativnih/preNST postupaka postižu dobre rezultate u predviđanju metastaza raka dojke u aksilarnim limfnim čvorovima. Takvi modeli mogu dovesti do točnije dijagnoze i boljeg odabira liječenja, posebno za bolesnike određene za NST, gdje su radiološki i klinički nalazi često jedini način procjene limfnih čvorova. Potencijalni napredak u dijagnostici na temelju modela strojnog učenja za neke bi bolesnike rezultirao NST-om i, posljedično, drugačijim adjuvantnim liječenjem s tretmanima koji nisu križno rezistentni i boljim ishodima za bolesnike. Od budućih studija očekuje se dodavanje genetskih podataka i podataka o biomarkerima te naknadna validacija u multinacionalnim/multicentričnim studijama.
SUMMARY:
Introduction: Determining the status of axillary lymph nodes is extremely important for prognosis and correct therapy selection in breast cancer patients. In patients designated for neoadjuvant systemic therapy (NST), clinical examination and radiological methods are the primary means of determining the status of axillary lymph nodes. Such methods lead to as many as 30% of misdiagnosed cases, which indicates the need for supplementary methods. Due to the increasing availability of data in oncology, machine learning methods are an ideal candidate for improving the diagnosis of axillary lymph nodes in breast cancer. The goal of this dissertation is the training and validation of machine learning models (Random Forest, XGBoost, TabNet Linear Regression and KNN) on clinico-pathological data, with the purpose of accurate axillary lymph node classification.
Subjects and Methods: Anonymized data from a total of 13580 patients treated for breast cancer were included in this research. The sample consists of subjects treated for breast cancer in 25 Croatian hospitals in the period from January 2017, to January 2022. Data were collected from hospital information systems during the mentioned period, by searching all patients with ICD code 50 (for breast cancer). All subjects with complete data (PHD, lymph node status, ER, PR, HER2, Ki67, tumor size, age) were included. Subjects with incomplete data (missing some of the input variables) was excluded, after which 9705 subjects remained. Among these, 1324 of them initially received NST, which is why they were also excluded from the analysis. Finally, after applying the criteria for NST, 719 patients were identified for final analysis, optimization and validation of the predictive models. Also, models were trained and validated on the entire population with complete data (n= 8381). Hyperparameter optimization was performed using the 5-fold cross validation technique. Validation of the model was performed using the "bootstrap" technique on the "test" data set. The feature importance analysis and the analysis of the model’s decision-making process was performed using the SHAP technique.
Results: In the group meeting the NST criteria, the best performance achieved by the Random forest model with a mean AUC of 0.793 (95% CI: 0.713-0.865), while XGBoost had the best performance on the total population with a mean AUC of 0.762 (95% CI: 0.726-0.794). Shapley value analysis showed that the most important predictor is tumor size, followed by Ki67 index, patient age and tumor grade. The association between axillary lymph node metastases and tumor size grows linearly up to a size of 5 cm, after which a plateau is reached. The association of Ki67 with LN metastasis increases up to Ki67 of 75%, after which a decline is observed, but mostly for the triple-negative type of breast cancer. Random forest and XGBoost achieve significant performance gains over the baseline univariate logistic regression model (trained only on tumor size).
Conclusion: Explainable tree-based machine learning methods trained on patient and tumor features obtained during regular pre-operative/pre-NST procedures achieve a good performance in predicting breast cancer axillary lymph node metastasis. Such models can lead to more accurate diagnosis and better treatment selection, especially for NST patients, where radiological and clinical findings are often the only way of axillary lymph node assessment. Potential upstage of diagnosis based on machine learning models for some patients would result in NST and, consecutively, potentially more adjuvant therapy with noncross resistant treatments and better patient outcomes. The addition of genetic and biomarker data and subsequent validation in multinational/multicenter studies is expected from future studies
Ispiši stranicu