خوشهای خوشه‌بندی سلسله مراتبی

همان گونه که بیان شد، در روش خوشه بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت انها  ساختاری سلسله‌ مراتبی، معمولا به صورت درختی نسبت داده می‌شود. به این درخت سلسله مراتبی دندوگرام می‌گویند. روش کار تکنیکهای خوشه‌بندی سلسله‌مراتبی معمولا بر اساس الگوریتمهای حریصانه4  و بهینگی مرحله‌ای5 است. روشهای خوشه‌بندی بر اساس ساختار سلسله مراتبی تولیدی توسط انها معمولا به دو دستة زیر تقسیم می‌شوند:

1.     بالا به پایین6  یا تقسیم کننده7 :در این روش ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته می‌شوند و سپس در طی یک فرایند تکراری در هر مرحله داده‌هایی شباهت کمتری به هم دارند به خوشه‌های مجزایی شکسته می‌شوند و این روال تا رسیدن به خوشه‌هایی که دارای یک عضو هستند ادامه پیدا می‌کند.

2.     پایین به بالا8  یا متراکم شونده9 : در این روش ابتدا داده‌ها به عنوان خوشه‌ای مجزا در نظر

گرفته می‌شود و در طی فرایندی تکراری در هر مرحله خوشه‌هایی که شباهت بیشتری با یکدیگر دارند با هم ترکیب می‌شوند تا در نهایت یک خوشه و یا تعداد مشخصی خوشه حاصل شود. از انواع الگوریتمهای خوشه‌بندی سلسله مراتبی متراکم شونده رایج می‌توان از الگوریتمهای Single-Link، Average-Linkو Complete-Linkنام برد. تفاوت اصلی در بین تمام این روشها به نحوة محاسبة شباهت بین خوشه‌ها مربوط می‌شود. که در بخشهای بعد به تشریح هر یک پرداخته خواهد شد.

نمونه‌ای از روش خوشه‌بندی سلسله مراتبی و تفاوت بین روشهای بالا به پایین و پایین به بالا در شکل زیر مشاهده می‌شود.

خوشهای خوشه‌بندی سلسله مراتبی

شکل 1-4 : شمایی از روشهای خوشه‌بندی بالا به پایین و روشهای پایین به بالا

 
خوشه‌بندی با روش Single-Link

 این روش یکی از قدیمی‌ترین و ساده‌ترین روشهای خوشه‌بندی است و جزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود. به این روش خوشه‌بندی، تکنیک نزدیکترین همسایه1  نیز گفته می‌شود. دراین روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده می‌شود:

                                          خوشهای خوشه‌بندی سلسله مراتبی                                                                                   


1Nearest Neighbour

که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمی‌باشد. در واقع در این روش شباهت بین دو خوشه، کمترین فاصلة بین یک عضو از یکی با یک عضو از دیگری است. در شکل زیر این مفهوم بهتر نشان‌ داده شده است. [6]

خوشهای خوشه‌بندی سلسله مراتبی

شکل1-5 : شباهت بین دو خوشه در روش Single-Linkبرابر است با کمترین فاصلة بین داده‌های دو خوشه

خوشه‌بندی با روش Complete-Link

این روش همانند Single-Linkجزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود. به این روش خوشه‌بندی، تکنیک دورترین همسایه1  نیز گفته می‌شود.[6] در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده می‌شود:

                                                         (1-2)                                      خوشهای خوشه‌بندی سلسله مراتبی

که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمی‌باشد. در واقع در این روش شباهت بین دو خوشه بیشترین فاصلة بین یک عضو از یکی با یک عضو از دیگری است. در شکل زیر این مفهوم بهتر نشان‌ داده شده است.


1Furthest Neighbour

خوشهای خوشه‌بندی سلسله مراتبی

شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین داده‌های دو خوشه.

خوشه‌بندی با روش Group Average Link

  این روش همانند Single-Linkجزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود. به این روش Centriod Distanceنیز گفته می‌شود. در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده می‌شود: [6]

                                   (1-4)             خوشهای خوشه‌بندی سلسله مراتبی

که Xiیک نمونه داده متعلق به خوشة A، Xjیک نمونه داده متعلق به خوشة B، NAتعداد اعضاء خوشةA  و NBتعداد اعضاء خوشة Bاست. در واقع در این روش، شباهت بین دو خوشه فاصله بین بردار میانگینِ تمام اعضاء یکی با بردارِ میانگینِ تمام اعضاء دیگری است. در شکل

 
خوشه‌بندی با روش Average-Link

  این روش همانند Single-Linkجزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود. [6] از انجا که هر دو روش خوشه‌بندی Single-linkو Complete-linkبشدت به نویز حساس می‌باشد، این روش که محاسبات بیشتری دارد، پیشنهاد شد. در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده می‌شود:

                                       (1-3)                             خوشهای خوشه‌بندی سلسله مراتبی

که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمی‌باشد. و NAتعداد اعضاء خوشة A و NBتعداد اعضاء خوشة Bاست. در واقع در این روش، شباهت بین دو خوشه میانگین فاصلة بین تمام اعضاء یکی با تمام اعضاء دیگری است. در شکل زیر این مفهوم بهتر نشان‌ داده شده است.

خوشهای خوشه‌بندی سلسله مراتبی

شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین داده‌های دو خوشه

الگوریتم خوشه‌بندی پایین به بالای عمومی

 اغلب الگوریتمهای خوشه‌بندی سلسله مراتبی را به نحوی می‌توان گسترش یافته الگوریتم خوشه‌بندی Single-Linkدر نظر گرفت. تفاوت روشهای مختلف در نحوه محاسبه ماتریس تشابه یا عدم تشابه1 انها است. فرمولی بازگشتی به نام فرمول Lance-Williamsتعریف شده است که عدم‌تشابه بین خوشة kو خوشه حاصل از پیوند خوشه‌های iو jرا بیان می‌کند:[6]

خوشهای خوشه‌بندی سلسله مراتبی

 

خوشه‌بندی با روش Median Distance

  این روش نیز همانند Single-Linkجزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود.  در روش Group Average Linkاگر یک خوشه کوچک با یک خوشه بزرگ ترکیب شود نقطه میانگین خوشه حاصل نقطه‌ای نزدیک میانگین خوشه بزرگتر خواهد بود که در بعضی از کاربردها چندان مطلوب نیست. بدین منظور این روش خوشه‌بندی پیشنهاد شده است که مشکل مذکور را ندارد.در این روش از میانة نقاط یک خوشه به‌ عنوان مرکز ثقل ان خوشه استفاده می‌شود.[6]

خوشهای خوشه‌بندی سلسله مراتبی

شکل1-8 :  شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه

 
خوشه‌بندی با روش Ward

 این روش نیز همانند Single-Linkجزء روشهای خوشه‌بندی سلسله مراتبی و انحصاری محسوب می‌شود. در این روش خوشه‌‌بندی برای کاهش تلفات ناشی داده‌های دور افتاده 1 از معیاری جدید برای محاسبه  عدم‌شباهت بین خوشه‌ها استفاده می‌کند. در روش Ward’s  از مجموع مربعات تفاضل هر داده از یک خوشه با بردار میانگین ان خوشه به عنوان معیاری برای سنجش یک خوشه استفاده می‌شود. الگوریتم زیر را می‌توان برای روش Wardدر نظر گرفت.

          i.          ابتدا هر داده به عنوان یک خوشه در نظر گرفته می‌شود.

       ii.          به ازاء تمام جفت خوشه‌های ممکن از مجموعه خوشه‌ها ان دو خوشه‌ای که مجموع مربعات    تفاضل داده‌های خوشة حاصل از اجتماع انها با بردار میانگین خوشه حاصل کمینه باشد، انتخاب می‌شوند.

     iii.          دو خوشة انتخاب شده با هم ترکیب می‌شوند.

[thrive_leads id='1265']
author-avatar

حدود علی ایوبی

من علی ایوبی هستم متخصص و مدرس بازاریابی اینترنتی، به کسانی که نیاز به دیجیتال مارکتینگ خود را دارند کمک می کنم که بتوانید سیستم بازاریابی آنلاین خود را راه اندازی کنند به نظرم من دلیل شکست شکست کسب و کارها نداشتن سیستمی برای جذب مخاطب(ترافیک) و تبدیل آن به مشتری(تبدیل) است روش کار من استفاده از سیستم قیف های فروش(Funnel) است.

بازگشت به لیست
0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها