جلسه دفاع دکتری تخصصی آمار زیستی سرکار خانم محبوبه اخلاقی
محبوبه اخلاقی از پایان نامه خود با عنوان " ارائه روش ناپارامتری چگالی هسته برای خوشهبندی کلاندادهها در حضور متغیرهای پیوسته و طبقهبندیشده و کاربرد آن در تحلیل دادههای پزشکی " با راهنمایی دکتر مرجان منصوریان و دکتر حامد تابش و مشاوره دکتر دکتر بهزاد مهکی روز سه شنبه 18 بهمن 1401در تالار محمد زاده دانشکده بهداشت دفاع نمودند.
مقدمه : در شروع کار با دادههاي کلان، تحليل خوشهاي يک روش رايج براي یافتن گروههای اصلی (خوشهها) از یک مجموعه از مشاهدات میباشد. اجراي اين تحلیل لازمه رسيدن به نتايج مطلوب و مديريت بهتر اطلاعات است. اغلب دادههاي موجود در عالم واقع، شامل متغيرهاي پيوسته و طبقهبنديشده ميباشند(Foss, 2016 #15)(Foss, 2016 #15)(Foss, 2016 #15). یکی از روشهای پرکاربرد ارائه شده، روش نیمه پارامتری KAMILA میباشد. با در نظر نگرفتن بخش پارامتری روش KAMILA به روشهای ناپارامتری متعددی دست مییابیم که یکی از مهمترین و پرکاربردترین آنها روش ناپارامتری K-Prototype میباشد. از آنجایی که این روشها قادر به شناسایی خوشههای غیرخطی نیستند، در این مطالعه در پی آن هستیم که با محاسبه فواصل به روش چگالی هسته به روش ناپارامتری KernelK-Prototype دست یابیم که بتوان از آن برای خوشهبندی دادههای آمیخته که به صورت غیرخطی با یکدیگر مرتبطند، استفاده کرد. از مزایای این روش این است که دیگر نیازی به برقراری پیشفرضهای پارامتری ندارد؛ چرا که ارزیابی پیشفرضهای پارامتری برای کلاندادهها گاها دشوار و حتی غیرممکن میباشد. بنابراین هدف از پژوهش حاضر، ارائه روش ناپارامتری با استفاده از چگالی هسته برای خوشهبندی کلاندادهها در حضور متغیرهای پیوسته و طبقهبندیشده است.مواد و روشها: دراین مطالعه روش Kernel K-Prototype به منظور خوشهبندی مشاهدات برای حالتی که دو نوع متغیر پیوسته و طبقه بندی شده برای خوشه بندی داریم، ارائه گردید. سپس با استفاده از یک مطالعهی شبیه سازی و ارایهی 6 سناریوی مختلف، اعتبار روش تحلیل خوشهای پیشنهادی با دو روش خوشه بندی KAMILA و Kernel K-Prototype با استفاده از شاخص روایی بیرونی رَند اصلاح شده مورد بررسی قرار گرفت. از این شش سناریو، یک سناریو به تولید خوشههایی با ماهیت خطی می پردازد و سناریوهای دیگر به بررسی خوشه هایی که به صورت مدور و به صورت غیر خطی و با اعمال تغییراتی در متغیرهای پیوسته و طبقه بندی شده تولید شده اند، میپردازند. در نهایت مدل پیشنهادی و دو مدل KAMILA و K-Prototype بر روی دادههای نسخههای تجویزی پزشکان به کار گرفته شد.
یافتهها: دراین پژوهش با استفاده از چندین مطالعه شبیه سازی نشان داده شد که مدل پیشنهادی Kernel K-Prototype برای دادههای از نوع آمیخته نسبت به روشهایی مانند KAMILA که از Kernel به طور مستقیم استفاده نمیکنند، بهتر عمل میکند. همچنین مدل پیشنهادی در دادههای واقعی در مقایسه با دو مدل عنوان شده در این پژوهش، برازش بهتری بر دادهها نشان داد.
نتیجهگیری: بر اساس نتایج شبیه سازی در این مطالعه، عدم به کارگیری روشهای تحلیلی خوشهبندی که بتوانند روابط غیرخطی را شناسایی و فواصل را با استفاده از ماهیت متغیرها به کار گیرند، باعث دستیابی به نتایجی با اعتبار کمتر خواهد شد. براساس نتایج این مطالعه استفاده از روش Kernel K-Prototype میتواند خوشهبندی را با دقت بالاتری انجام دهد.
کلیدواژهها: کلان دادهها، نسخههای تجویزی پزشکان، Kernel K-Prototype، تحلیل خوشهای، متغیرهای طبقه بندی شده، متغیرهای پیوسته