رفتن به محتوای اصلی
x

جلسه دفاع دکتری تخصصی آمار زیستی سرکار خانم محبوبه اخلاقی

 

محبوبه اخلاقی از پایان نامه خود با عنوان " ارائه روش ناپارامتری چگالی هسته برای ‌خوشه‌بندی کلان‌داده‌ها در حضور متغیرهای پیوسته و طبقه‌بندی‌شده و کاربرد آن در تحلیل داده‌های پزشکی " با راهنمایی دکتر مرجان منصوریان و دکتر حامد تابش و مشاوره دکتر دکتر بهزاد مهکی روز سه شنبه 18 بهمن 1401در تالار محمد زاده دانشکده بهداشت دفاع نمودند.

مقدمه : در شروع کار با داده­هاي کلان، تحليل خوشه­اي يک روش رايج براي یافتن گروه‌های اصلی (خوشه‌ها) از یک مجموعه از مشاهدات می‌باشد. اجراي اين تحلیل لازمه رسيدن به نتايج مطلوب و مديريت بهتر اطلاعات است. اغلب داده­هاي موجود در عالم واقع، شامل متغيرهاي پيوسته و طبقه­بندي­شده مي­باشند(Foss, 2016 #15)(Foss, 2016 #15)(Foss, 2016 #15). یکی از روش‌های پرکاربرد ارائه شده، روش نیمه پارامتری KAMILA می‌باشد. با در نظر نگرفتن بخش پارامتری روش KAMILA به روش‌های ناپارامتری متعددی دست می‌یابیم که یکی از مهم‌ترین و پرکاربردترین آن‌ها روش ناپارامتری K-Prototype می‌باشد. از آنجایی که این روش‌ها قادر به شناسایی خوشه‌های غیرخطی نیستند، در این مطالعه در پی آن هستیم که با محاسبه فواصل به روش چگالی هسته به روش ناپارامتری KernelK-Prototype دست ‌یابیم که بتوان از آن برای خوشه‌بندی داده‌های آمیخته که به صورت غیرخطی با یکدیگر مرتبطند، استفاده کرد. از مزایای ‌این روش ‌این است که دیگر نیازی به برقراری پیش‌فرض‌های پارامتری ندارد؛ چرا که ارزیابی پیش‌فرض‌های پارامتری برای کلان‌داده‌ها گاها دشوار و حتی غیرممکن می‌باشد. بنابراین هدف از پژوهش حاضر، ارائه روش ناپارامتری با استفاده از چگالی هسته برای ‌خوشه‌بندی کلان‌داده‌ها در حضور متغیرهای پیوسته و طبقه‌بندی‌شده است.

مواد و روش‌ها: در‌این مطالعه روش Kernel K-Prototype به منظور خوشه‌بندی مشاهدات برای حالتی که دو نوع متغیر پیوسته و طبقه بندی شده برای خوشه بندی داریم،  ارائه گردید. سپس با استفاده از یک مطالعه‌ی شبیه سازی و ارایه‌ی 6 سناریوی مختلف، اعتبار روش تحلیل خوشه‌ای پیشنهادی با دو روش خوشه بندی KAMILA و Kernel K-Prototype با استفاده از شاخص روایی بیرونی رَند اصلاح شده مورد بررسی قرار گرفت. از این شش سناریو، یک سناریو به تولید خوشه‌هایی با ماهیت خطی می پردازد و سناریوهای دیگر به بررسی خوشه هایی که به صورت مدور و به صورت غیر خطی و با اعمال تغییراتی در متغیرهای پیوسته و طبقه بندی شده تولید شده اند، می‌پردازند. در نهایت مدل پیشنهادی و دو مدل KAMILA و K-Prototype بر روی داده‌های نسخه‌های تجویزی پزشکان به کار گرفته شد.

یافته‌ها: در‌این پژوهش با استفاده از چندین مطالعه شبیه سازی نشان داده شد که مدل پیشنهادی Kernel K-Prototype برای داده‌های از نوع آمیخته نسبت به روش‌هایی مانند KAMILA که از Kernel به طور مستقیم استفاده نمی‌کنند، بهتر عمل می‌کند. هم‌چنین مدل پیشنهادی در داده‌های واقعی در مقایسه با دو مدل عنوان شده در این پژوهش، برازش بهتری بر داده‌ها نشان داد.

نتیجه‌گیری: بر اساس نتایج شبیه سازی در این مطالعه، عدم به کارگیری روش‌های تحلیلی خوشه‌بندی که بتوانند  روابط غیرخطی را شناسایی و فواصل را با استفاده از ماهیت متغیرها به کار گیرند، باعث دستیابی به نتایجی با اعتبار کم‌تر خواهد شد. براساس نتایج این مطالعه استفاده از روش Kernel K-Prototype می‌تواند خوشه‌بندی را با دقت بالاتری انجام دهد.

کلیدواژه‌ها: کلان داده‌ها، نسخه‌های تجویزی پزشکان، Kernel K-Prototype، تحلیل خوشه‌ای، متغیرهای طبقه بندی شده، متغیرهای پیوسته