دفاع پایاننامه کارشناسی ارشد آمار زیستی سرکارخانم فریده کاظمی
فریده کاظمی دانشجوی کارشناسی ارشد آمار زیستی روز چهارشنبه 12 مهر 1402 از پایان نامه خویش باعنوان "پیشبینی ابتلا به پیش دیابت با استفاده از روشهای یادگیری ماشین در مطالعه کوهورت پیشگیری از دیابت اصفهان" باراهنمایی دکترآوات فیضیو مشاوره دکتر ابراهیم عبدالله پور دفاع نمودند.
چکیده فارسی
مقدمه: بیماری دیابت نوع 2 شایعترین بیماری ناشی از اختلالات متابولیسم در جهان میباشد. یکی از اهداف تحقیقات پزشکی تعیین عوامل مرتبط در پیشبینی ابتلا به این بیماری در مراحل اولیه میباشد. استفاده از تکنیکهای دادهکاوی برای ایجاد مدلهای پیشبینی کننده، جهت شناسایی افراد در معرض خطر ابتلا به این بیماری و شناخت عوامل خطرساز باهدف کاهش نرخ بروز پیش دیابت و دیابت بسیار کمککننده است. پیش دیابت مرحله ابتدایی اختلال در گلوکوز میباشد که قرار گرفتن در آن زمینه ابتلای بالا به دیابت را فراهم میکند. هدف مطالعه حاضر استفاده از روشهای یادگیری ماشین برای پیشبینی ابتلا بهپیش دیابت در افراد سالم خویشاوند درجهیک بیماران دیابتی و شناسایی عوامل خطرساز در ابتلا به این بیماری میباشد.
مواد و روشها: در پژوهش حاضر از دادههای کوهورت آیندهنگر طرح "پیشگیری از دیابت اصفهان (IDPS)"، استفاده شد. اطلاعات مربوط به 1611 فرد سالم شرکتکننده در مطالعه که خویشاوندان درجهیک بیماران دیابتی مرکز تحقیقات غدد و متابولیسم اصفهان هستند که از سال 1383 تاکنون مورد پیگیری قرارگرفته و از این تعداد، 327 مورد ابتلا بهپیش دیابت گزارششده است. در این مطالعه از هفت مدل یادگیری ماشین که شامل روشهای الگوریتم تقویت گرادیان شدید(XGB)، جنگل تصادفی(RF)، پرسپترون چندلایه(MLP)، رگرسیون لجستیک(LR)، نزدیکترین همسایگی(KNN)، درخت تصمیم(DT) و ماشین بردار پشتیبان(SVM) هستند، برای پیشبینی ابتلا بهپیش دیابت استفاده شد. دادههای مطالعه به دو مجموعه آموزش و آزمون با نبست 70 به 30 تقسیم شدند و در ادامه الگوریتمهای یادگیری ماشین بر اساس پیشفرضهای برنامه پایتون، بعد از بهینهسازی فرا پارامترهای الگوریتم و تنظیم مقدار آستانه با اجرای فرایند اعتبار سنجی متقاطع 10 برابری بر رویدادهها پیادهسازی و عملکرد آنها مورد مقایسه قرار گرفت. در این مطالعه از زبان برنامهنویسی پایتون در ANACONDA و در نوت بوک Jupyter lab استفادهشده است.
نتایج: معیارهای ارزیابی متنوعی ازجمله دقت، دقت پزشکی، حساسیت، امتیاز F1، ویژگی، و مساحت زیر نمودار ROC در این تحقیق استفادهشده و نشان دادهاند که مدلهای مختلف در این معیارها عملکردهای متفاوتی دارند. در معیار دقت پزشکی[1] مدلهای RF ، MLP وLR ، در معیار حساسیت مدلهای SVM با تابع کرنل چندجملهای، RF و XGBoost به ترتیب بهعنوان مدلهای با بیشترین حساسیت در تشخیص پیش دیابت شناخته میشوند. در معیار امتیازF1 مدلهایMLP ، SVM با تابع کرنل چندجملهای و LR به ترتیب بهعنوان مدلهای با توازن بین دقت و انطباق بالا در تشخیص بیماران پیش دیابت شناخته میشوند. در معیار ویژگی، مدلهای RF ، SVM با تابع کرنل خطی، LR و MLP بهعنوان مدلهای با عملکرد برتر در تشخیص افراد سالم از افراد پیش دیابتی تلقی میشوند. درنهایت با توجه به جمیع نتایج میتوان مدلهای بهینهسازی شده XGBoost، LR و MLP را با مساحت زیر نمودار ROC (AUC) 0.68- 0.67 و با دقت[2] برابر 0.6۹- 0.6۸ بهعنوان مدلهای با بهترین عملکرد در تشخیص پیش دیابت تلقی نمود.
بحث و نتیجهگیری: استفاده از الگوریتمهای بهینهسازی میتواند به بهبود عملکرد مدلهای یادگیری ماشین کمک کنند. درهرصورت، برای انتخاب نهایی مدل، لازم است که نتایج بر اساس تمام معیارهای مختلف بررسی شوند. در این مطالعه با توجه به مقدار AUC و با در نظر گرفتن معیارهای ارزیابی عملکرد در میان تمام مدلهای پیشنهادی، میتوان مدلهای بهینهسازی شدهی XGB، LR (با جریمه l1) و MLP را در پیشبینی ابتلا بهپیش دیابت بهعنوان مدلهای مناسب جهت پیشبینی ابتلا بهپیش دیابت معرفی کرد. همچنین با توجه به اهمیت متغیرها در این سه مدل، توجه به اهمیت نقش پیشگوییکنندگی متغیرهای قند خون ناشتا، LDL، Hba1c، فشارخون سیستولیک و دیاستولیک ، تری گلیسیرید، کلسترول ، WHR، BMI و همچنین متغیر جنسیت در پیشبینی خطر ابتلا بهپیش دیابت، میتواند مفید باشد.
کلیدواژهها: دیابت نوع 2، پیش دیابت، یادگیری ماشین، خویشاوندان درجهیک بیماران دیابتی، مدل پیشبینی، اعتبارسنجی متقاطع
[1] Precision
[2] Accuracy