رفتن به محتوای اصلی
x

دفاع پایان‌نامه کارشناسی ارشد آمار زیستی سرکارخانم فریده کاظمی

 

فریده کاظمی دانشجوی کارشناسی ارشد آمار زیستی روز چهارشنبه 12 مهر 1402 از پایان نامه خویش باعنوان "پیش‌بینی ابتلا به ‌پیش دیابت با استفاده از روش‌های یادگیری ماشین در مطالعه کوهورت  پیشگیری از دیابت اصفهان" باراهنمایی دکترآوات فیضیو مشاوره دکتر ابراهیم عبدالله پور دفاع نمودند.

 

 

چکیده فارسی

مقدمه: بیماری دیابت نوع 2 شایع‌ترین بیماری ناشی از اختلالات متابولیسم در جهان می‌باشد. یکی از اهداف تحقیقات پزشکی تعیین عوامل مرتبط در پیش‌بینی ابتلا به این بیماری در مراحل اولیه می‌باشد. استفاده از تکنیک‌های داده‌کاوی برای ایجاد مدل‌های پیش‌بینی کننده، جهت شناسایی افراد در معرض خطر ابتلا به این بیماری و شناخت عوامل خطرساز باهدف کاهش نرخ بروز پیش دیابت و دیابت  بسیار کمک‌کننده است. پیش دیابت مرحله ابتدایی اختلال در گلوکوز می‌باشد که قرار گرفتن در آن زمینه ابتلای بالا به دیابت را فراهم می‌کند. هدف مطالعه حاضر استفاده از روش‌های یادگیری ماشین برای پیش‌بینی ابتلا به‌پیش دیابت در افراد سالم خویشاوند درجه‌یک بیماران دیابتی و شناسایی عوامل خطرساز در ابتلا به این بیماری می‌باشد.

مواد و روش‌ها: در پژوهش حاضر از داده‌های کوهورت آینده‌نگر طرح "پیشگیری از دیابت اصفهان (IDPS)"، استفاده شد. اطلاعات مربوط به 1611 فرد سالم شرکت‌کننده در مطالعه که خویشاوندان درجه‌یک بیماران دیابتی مرکز تحقیقات غدد و متابولیسم اصفهان هستند که از سال 1383 تاکنون مورد پیگیری قرارگرفته و از این تعداد، 327 مورد ابتلا به‌پیش دیابت گزارش‌شده است. در این مطالعه از هفت مدل یادگیری ماشین که شامل روش‌های الگوریتم تقویت گرادیان شدید(XGB)، جنگل تصادفی(RF)، پرسپترون چندلایه(MLP)، رگرسیون لجستیک(LR)، نزدیک‌ترین همسایگی(KNN)، درخت تصمیم(DT) و ماشین بردار پشتیبان(SVM) هستند، برای پیش‌بینی ابتلا به‌پیش دیابت استفاده شد. داده‌های مطالعه  به دو مجموعه آموزش و آزمون با نبست 70 به 30 تقسیم شدند و در ادامه الگوریتم‌های یادگیری ماشین بر اساس پیش‌فرض‌های برنامه پایتون، بعد از بهینه‌سازی فرا پارامترهای الگوریتم و تنظیم مقدار آستانه با اجرای فرایند اعتبار سنجی متقاطع 10 برابری بر روی‌داده‌ها پیاده‌سازی و عملکرد آن‌ها مورد مقایسه قرار گرفت. در این مطالعه از زبان برنامه‌نویسی پایتون در ANACONDA و در نوت بوک  Jupyter lab استفاده‌شده است.

نتایج: معیارهای ارزیابی متنوعی ازجمله دقت، دقت پزشکی، حساسیت، امتیاز F1، ویژگی، و مساحت زیر نمودار ROC  در این تحقیق استفاده‌شده و نشان داده‌اند که مدل‌های مختلف در این معیارها عملکرد‌های متفاوتی دارند. در معیار دقت پزشکی[1] مدل‌های RF ، MLP وLR  ، در معیار حساسیت مدل‌های SVM با تابع کرنل چندجمله‌ای، RF و XGBoost به ترتیب به‌عنوان مدل‌های با بیشترین حساسیت در تشخیص پیش دیابت شناخته می‌شوند. در معیار امتیازF1  مدل‌هایMLP ، SVM با تابع کرنل چندجمله‌ای و LR  به ترتیب به‌عنوان مدل‌های با توازن بین دقت و انطباق بالا در تشخیص بیماران پیش دیابت شناخته می‌شوند. در معیار ویژگی،  مدل‌های RF ، SVM با تابع کرنل خطی، LR  و MLP  به‌عنوان مدل‌های با عملکرد برتر در تشخیص افراد سالم از افراد پیش دیابتی تلقی می‌شوند. درنهایت با توجه به جمیع نتایج می‌توان مدل‌های بهینه‌سازی شده XGBoost، LR‌ و MLP‌ را  با مساحت زیر نمودار ROC (AUC) 0.68- 0.67 و با دقت[2] برابر 0.6۹- 0.6۸ به‌عنوان مدل‌های با بهترین عملکرد در تشخیص پیش دیابت تلقی نمود.

بحث و نتیجه‌گیری: استفاده از الگوریتم‌های بهینه‌سازی می‌تواند به بهبود عملکرد مدل‌های یادگیری ماشین کمک کنند. درهرصورت، برای انتخاب نهایی مدل، لازم است که نتایج بر اساس تمام معیارهای مختلف بررسی شوند. در این مطالعه با توجه به مقدار AUC  و با در نظر گرفتن معیارهای ارزیابی عملکرد در میان تمام مدل‌های پیشنهادی، می‌توان مدل‌های  بهینه‌سازی شده‌ی XGB، LR (با جریمه l1) و MLP  را در پیش‌بینی ابتلا به‌پیش دیابت به‌عنوان مدل‌های مناسب جهت پیش‌بینی ابتلا به‌پیش دیابت معرفی کرد. همچنین با توجه به اهمیت متغیرها در این سه مدل، توجه به اهمیت نقش پیشگویی‌کنندگی متغیرهای قند خون ناشتا، LDL، Hba1c، فشارخون سیستولیک و دیاستولیک ، تری گلیسیرید، کلسترول ، WHR، BMI و همچنین متغیر جنسیت در پیش‌بینی خطر ابتلا به‌پیش دیابت، می‌تواند مفید باشد.

 

کلیدواژه‌ها: دیابت نوع 2، پیش دیابت، یادگیری ماشین، خویشاوندان درجه‌یک بیماران دیابتی، مدل پیش‌بینی، اعتبارسنجی متقاطع

 

[1] Precision

[2] Accuracy