خوشه‌بندی داده‌ها و الگوریتم CRISP

منبع : کتاب آموزش کاربردی SPSS

خوشه‌بندی را می‌توان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشه‌بندی با یافتن یک ساختار درون یک مجموعه از داده‌های بدون برچسب درگیر است. خوشه‌ به مجموعه‌ای از داده‌ها گفته می‌شود که به هم شباهت داشته باشند. در خوشه‌بندی سعی می‌شود تا دادهها به خوشه‌هایی تقسیم شوند که شباهت بین داده‌های درون هر خوشه حداکثر و شباهت بین داده‌های درون خوشه‌های متفاوت حداقل شود.

در طبقه‌بندی هر داده به یک طبقه (کلاس) از پیشین مشخص شده تخصیص می‌یابد ولی در خوشه‌بندی هیچ اطلاعی از کلاسهای موجود درون داده‌ها وجود ندارد و به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند. در شکل زیر تفاوت بین خوشه‌بندی و طبقه‌بندی بهتر نشان داده شده است. روش‌های خوشه‌بندی را می‌توان از چندین جنبه تقسیم‌بندی کرد:

در روش خوشه‌بندی انحصاری پس از خوشه‌بندی هر داده دقیقأ به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی K-Means. ولی در خوشه‌بندی با همپوشی پس از خوشه‌بندی به هر داده یک درجه تعلق بازاء هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبتهای متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است. در روش خوشه بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت آنها ساختاری سلسله‌ مراتبی نسبت داده می‌شود. مانند روش Single Link. ولی در خوشه‌بندی مسطح تمامی خوشه‌های نهایی دارای یک میزان عمومیت هستند مانند K-Means. به ساختار سلسله مراتبی حاصل از روشهای خوشه‌بندی سلسله مراتبی دندوگرام (Dendogram) گفته می‌شود. با توجه با اینکه روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیشتر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌های با جزئیات پیشنهاد می‌شوند ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌شوند. یکی از الگوهای خوشه بندی CRISP است که الگوریتم آن در زیر ارائه شده است:

خوشه‌بندی داده‌ها و الگوریتم CRISP

واژه CRISP مخفف CRoss Industry Standard Process for Data Mining فرایندهای استاندارد صنعت متقابل برای داده کاوی است. در واقع روش‌های تحلیل متفاوتی برای اجرای پروژه‌های داده کاوی وجود دارد. روش تحلیل CRISP یا «فرایندهای استاندارد صنعت متقابل برای داده کاوی» یکی از روش‌های منطف و پرکاربرد در این زمینه است. کریسپ یک مدل فرایندی است که در شش مرحله برای سازماندهی کردن نتایج استفاده می‌کند.

فهم تجاری: این مرحله شامل گردآوری الزامات و مصاحبه با مدیران ارشد و خبرگان برای تعیین اهدافی بالاتر از کار با داده‌ها می‌شود.

درک داده: مرحله درک داده شامل نگاه نزدیک‌تر به دردسترس بودن داده برای داده کاوی می‌شود. این مرحله شامل گردآوری داده‌های اولیه، توصیف داده، کشف داده، و تغییر کیفیت داده می‌شود.

آماده سازی داده: آماده سازی داده یکی از مهم ترین و اغلب زمان برترین جوانب پروژه‌های داده کاوی است و شامل انتخاب داده ، پاک سازی داده، ساختاربندی داده جدید، و ادغام داده  می‌شود.

مدل سازی: داده‌ای که زمان صرف کرده برای مهیا شدن , آماده است تا الگوریتم‌های داده کاوی را بیاورد، و نتایج شروع می‌کند به نشان دادن راه حل هایی برای مشکل تجاری مطرح شده. تکنیک‌های انتخاب مدل سازی، ایجاد یک طراحی آزمون ، ساختن مدل‌ها ، و ارزیابی مدل این مرحله را  می‌سازد.

ارزیابی: در این مرحله، ارزیابی نتایج، فرایند بازبینی، و تعیین مراحل بعدی انجام شده است.

توسعه: توسعه فرایند استفاده از ادراکات جدید برای ایجاد بهبود در سازمان است.

محدودیت های خوشه‌بندی

متأسفانه چندین مسئاله در خصوص روش‌های خوشه‌بندی مطرح است که هنوز به شکل کامل پاسخ داده نشده‌اند. و همچنان تلاش‌های بسیاری به منظور حل آنها انجام می‌گیرد. روش‌های خوشه‌بندی قادر نیستند تمامی نیازهای مسائل را به طور هم‌زمان برآورده‌کنند. به دلیل پیچیدگی‌ محاسباتی زیاد در برخورد با مجموعه داده‌های بزرگ با تعداد داده ‌زیاد و تعداد ویژگی‌های زیاد برای هر داده عملی نیستند. به دلیل وابستگی‌ شدید به تعریف معیار شباهت بین داده‌ها در مسائلی که تعریف معیار شباهت مشکل باشد نتایج مطلوبی تولید نمی‌کنند.(در داده‌ها با تعداد ویژگی‌ زیاد) در نهایت برای نتایج آنها می‌توان تفسیرهای مختلفی بیان کرد.

[thrive_leads id='1265']
author-avatar

حدود علی ایوبی

من علی ایوبی هستم متخصص و مدرس بازاریابی اینترنتی، به کسانی که نیاز به دیجیتال مارکتینگ خود را دارند کمک می کنم که بتوانید سیستم بازاریابی آنلاین خود را راه اندازی کنند به نظرم من دلیل شکست شکست کسب و کارها نداشتن سیستمی برای جذب مخاطب(ترافیک) و تبدیل آن به مشتری(تبدیل) است روش کار من استفاده از سیستم قیف های فروش(Funnel) است.

بازگشت به لیست
0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها