خوشهبندی دادهها و الگوریتم CRISP
منبع : کتاب آموزش کاربردی SPSS
خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود.
در طبقهبندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص مییابد ولی در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند. در شکل زیر تفاوت بین خوشهبندی و طبقهبندی بهتر نشان داده شده است. روشهای خوشهبندی را میتوان از چندین جنبه تقسیمبندی کرد:
در روش خوشهبندی انحصاری پس از خوشهبندی هر داده دقیقأ به یک خوشه تعلق میگیرد مانند روش خوشهبندی K-Means. ولی در خوشهبندی با همپوشی پس از خوشهبندی به هر داده یک درجه تعلق بازاء هر خوشه نسبت داده میشود. به عبارتی یک داده میتواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونهای از آن خوشهبندی فازی است. در روش خوشه بندی سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت آنها ساختاری سلسله مراتبی نسبت داده میشود. مانند روش Single Link. ولی در خوشهبندی مسطح تمامی خوشههای نهایی دارای یک میزان عمومیت هستند مانند K-Means. به ساختار سلسله مراتبی حاصل از روشهای خوشهبندی سلسله مراتبی دندوگرام (Dendogram) گفته میشود. با توجه با اینکه روشهای خوشهبندی سلسله مراتبی اطلاعات بیشتر و دقیقتری تولید میکنند برای تحلیل دادههای با جزئیات پیشنهاد میشوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه دادههای بزرگ روشهای خوشهبندی مسطح پیشنهاد میشوند. یکی از الگوهای خوشه بندی CRISP است که الگوریتم آن در زیر ارائه شده است:

واژه CRISP مخفف CRoss Industry Standard Process for Data Mining فرایندهای استاندارد صنعت متقابل برای داده کاوی است. در واقع روشهای تحلیل متفاوتی برای اجرای پروژههای داده کاوی وجود دارد. روش تحلیل CRISP یا «فرایندهای استاندارد صنعت متقابل برای داده کاوی» یکی از روشهای منطف و پرکاربرد در این زمینه است. کریسپ یک مدل فرایندی است که در شش مرحله برای سازماندهی کردن نتایج استفاده میکند.
فهم تجاری: این مرحله شامل گردآوری الزامات و مصاحبه با مدیران ارشد و خبرگان برای تعیین اهدافی بالاتر از کار با دادهها میشود.
درک داده: مرحله درک داده شامل نگاه نزدیکتر به دردسترس بودن داده برای داده کاوی میشود. این مرحله شامل گردآوری دادههای اولیه، توصیف داده، کشف داده، و تغییر کیفیت داده میشود.
آماده سازی داده: آماده سازی داده یکی از مهم ترین و اغلب زمان برترین جوانب پروژههای داده کاوی است و شامل انتخاب داده ، پاک سازی داده، ساختاربندی داده جدید، و ادغام داده میشود.
مدل سازی: دادهای که زمان صرف کرده برای مهیا شدن , آماده است تا الگوریتمهای داده کاوی را بیاورد، و نتایج شروع میکند به نشان دادن راه حل هایی برای مشکل تجاری مطرح شده. تکنیکهای انتخاب مدل سازی، ایجاد یک طراحی آزمون ، ساختن مدلها ، و ارزیابی مدل این مرحله را میسازد.
ارزیابی: در این مرحله، ارزیابی نتایج، فرایند بازبینی، و تعیین مراحل بعدی انجام شده است.
توسعه: توسعه فرایند استفاده از ادراکات جدید برای ایجاد بهبود در سازمان است.
محدودیت های خوشهبندی
متأسفانه چندین مسئاله در خصوص روشهای خوشهبندی مطرح است که هنوز به شکل کامل پاسخ داده نشدهاند. و همچنان تلاشهای بسیاری به منظور حل آنها انجام میگیرد. روشهای خوشهبندی قادر نیستند تمامی نیازهای مسائل را به طور همزمان برآوردهکنند. به دلیل پیچیدگی محاسباتی زیاد در برخورد با مجموعه دادههای بزرگ با تعداد داده زیاد و تعداد ویژگیهای زیاد برای هر داده عملی نیستند. به دلیل وابستگی شدید به تعریف معیار شباهت بین دادهها در مسائلی که تعریف معیار شباهت مشکل باشد نتایج مطلوبی تولید نمیکنند.(در دادهها با تعداد ویژگی زیاد) در نهایت برای نتایج آنها میتوان تفسیرهای مختلفی بیان کرد.
[thrive_leads id='1265']