همان گونه که بیان شد، در روش خوشه بندی سلسله مراتبی، به خوشههای نهایی بر اساس میزان عمومیت انها ساختاری سلسله مراتبی، معمولا به صورت درختی نسبت داده میشود. به این درخت سلسله مراتبی دندوگرام میگویند. روش کار تکنیکهای خوشهبندی سلسلهمراتبی معمولا بر اساس الگوریتمهای حریصانه4 و بهینگی مرحلهای5 است. روشهای خوشهبندی بر اساس ساختار سلسله مراتبی تولیدی توسط انها معمولا به دو دستة زیر تقسیم میشوند:
1. بالا به پایین6 یا تقسیم کننده7 :در این روش ابتدا تمام دادهها به عنوان یک خوشه در نظر گرفته میشوند و سپس در طی یک فرایند تکراری در هر مرحله دادههایی شباهت کمتری به هم دارند به خوشههای مجزایی شکسته میشوند و این روال تا رسیدن به خوشههایی که دارای یک عضو هستند ادامه پیدا میکند.
2. پایین به بالا8 یا متراکم شونده9 : در این روش ابتدا دادهها به عنوان خوشهای مجزا در نظر
گرفته میشود و در طی فرایندی تکراری در هر مرحله خوشههایی که شباهت بیشتری با یکدیگر دارند با هم ترکیب میشوند تا در نهایت یک خوشه و یا تعداد مشخصی خوشه حاصل شود. از انواع الگوریتمهای خوشهبندی سلسله مراتبی متراکم شونده رایج میتوان از الگوریتمهای Single-Link، Average-Linkو Complete-Linkنام برد. تفاوت اصلی در بین تمام این روشها به نحوة محاسبة شباهت بین خوشهها مربوط میشود. که در بخشهای بعد به تشریح هر یک پرداخته خواهد شد.
نمونهای از روش خوشهبندی سلسله مراتبی و تفاوت بین روشهای بالا به پایین و پایین به بالا در شکل زیر مشاهده میشود.
شکل 1-4 : شمایی از روشهای خوشهبندی بالا به پایین و روشهای پایین به بالا
این روش یکی از قدیمیترین و سادهترین روشهای خوشهبندی است و جزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. به این روش خوشهبندی، تکنیک نزدیکترین همسایه1 نیز گفته میشود. دراین روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده میشود:
1Nearest Neighbour
که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمیباشد. در واقع در این روش شباهت بین دو خوشه، کمترین فاصلة بین یک عضو از یکی با یک عضو از دیگری است. در شکل زیر این مفهوم بهتر نشان داده شده است. [6]
شکل1-5 : شباهت بین دو خوشه در روش Single-Linkبرابر است با کمترین فاصلة بین دادههای دو خوشه
این روش همانند Single-Linkجزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. به این روش خوشهبندی، تکنیک دورترین همسایه1 نیز گفته میشود.[6] در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده میشود:
(1-2)
که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمیباشد. در واقع در این روش شباهت بین دو خوشه بیشترین فاصلة بین یک عضو از یکی با یک عضو از دیگری است. در شکل زیر این مفهوم بهتر نشان داده شده است.
1Furthest Neighbour
شکل 1-6: شباهت بین دو خوشه در روش Complete-Linkبرابر است با بیشترین فاصلة بین دادههای دو خوشه.
این روش همانند Single-Linkجزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. به این روش Centriod Distanceنیز گفته میشود. در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده میشود: [6]
(1-4)
که Xiیک نمونه داده متعلق به خوشة A، Xjیک نمونه داده متعلق به خوشة B، NAتعداد اعضاء خوشةA و NBتعداد اعضاء خوشة Bاست. در واقع در این روش، شباهت بین دو خوشه فاصله بین بردار میانگینِ تمام اعضاء یکی با بردارِ میانگینِ تمام اعضاء دیگری است. در شکل
این روش همانند Single-Linkجزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. [6] از انجا که هر دو روش خوشهبندی Single-linkو Complete-linkبشدت به نویز حساس میباشد، این روش که محاسبات بیشتری دارد، پیشنهاد شد. در این روش برای محاسبة شباهت بین دو خوشة Aو Bاز معیار زیر استفاده میشود:
(1-3)
که iیک نمونه داده متعلق به خوشة Aو jیک نمونه دادة متعلق به خوشة Bمیباشد. و NAتعداد اعضاء خوشة A و NBتعداد اعضاء خوشة Bاست. در واقع در این روش، شباهت بین دو خوشه میانگین فاصلة بین تمام اعضاء یکی با تمام اعضاء دیگری است. در شکل زیر این مفهوم بهتر نشان داده شده است.
شکل 1-7 : شباهت بین دو خوشه در روش Average-Linkبرابر است با میانگین فاصلة بین دادههای دو خوشه
اغلب الگوریتمهای خوشهبندی سلسله مراتبی را به نحوی میتوان گسترش یافته الگوریتم خوشهبندی Single-Linkدر نظر گرفت. تفاوت روشهای مختلف در نحوه محاسبه ماتریس تشابه یا عدم تشابه1 انها است. فرمولی بازگشتی به نام فرمول Lance-Williamsتعریف شده است که عدمتشابه بین خوشة kو خوشه حاصل از پیوند خوشههای iو jرا بیان میکند:[6]
این روش نیز همانند Single-Linkجزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. در روش Group Average Linkاگر یک خوشه کوچک با یک خوشه بزرگ ترکیب شود نقطه میانگین خوشه حاصل نقطهای نزدیک میانگین خوشه بزرگتر خواهد بود که در بعضی از کاربردها چندان مطلوب نیست. بدین منظور این روش خوشهبندی پیشنهاد شده است که مشکل مذکور را ندارد.در این روش از میانة نقاط یک خوشه به عنوان مرکز ثقل ان خوشه استفاده میشود.[6]
شکل1-8 : شباهت بین دو خوشه در روش Group Average Linkبرابر است با فاصله بین میانگین نقاط دو خوشه
این روش نیز همانند Single-Linkجزء روشهای خوشهبندی سلسله مراتبی و انحصاری محسوب میشود. در این روش خوشهبندی برای کاهش تلفات ناشی دادههای دور افتاده 1 از معیاری جدید برای محاسبه عدمشباهت بین خوشهها استفاده میکند. در روش Ward’s از مجموع مربعات تفاضل هر داده از یک خوشه با بردار میانگین ان خوشه به عنوان معیاری برای سنجش یک خوشه استفاده میشود. الگوریتم زیر را میتوان برای روش Wardدر نظر گرفت.
i. ابتدا هر داده به عنوان یک خوشه در نظر گرفته میشود.
ii. به ازاء تمام جفت خوشههای ممکن از مجموعه خوشهها ان دو خوشهای که مجموع مربعات تفاضل دادههای خوشة حاصل از اجتماع انها با بردار میانگین خوشه حاصل کمینه باشد، انتخاب میشوند.
iii. دو خوشة انتخاب شده با هم ترکیب میشوند.