برخی اوقات کاربران فکر می کنند که به هر نحوی می توانند داده ها را خوشه بندی نمایند و پس از خوشه بندی می توانند بفهمند که آیا نتایج قابل قبولی استخراج شده یا خیر. در اینصورت باید دادهها را با استفاده از روشهای خوشهبندی مختلف خوشه بندی نمود و سپس بررسی کرد که آیا خوشهبندی خوب انجام شده است یا خیر. برخی اوقات هم به هیچ وجه نمی توان داده ها را خوشه بندی نمود یعنی با استفاده از روشهای مختلف خوشه بندی و ارزیابی این خوشهها، نتیجه رضایت بخشی حاصل نمی شود.
در این مواقع باید سنجید که آیا واقعا خوشههایی در مجموعه داده وجود دارد یا خیر. یعنی پیش از خوشه بندی دادهها، باید با استفاده از روشهای آماری بررسی نمود که آیا مجموعه دادهها تمایلی به ساختن خوشه دارند یا خیر. استفاده از روشهای آماری برای آزمون این فرض اغلب سخت و زمان بر می باشد. در حقیقت فرض صفر در اینجا این است که دادههای موجود بر خلاف دادههای اتفاقی تولید شده از روی داده های موجود، دارای تمایل به خوشه خوشه شدن هستند.
یکی از ابزارهای آماری برای بررسی این شرایط استفاده از آزمون هاپکینز (Hopkins) می باشد. برای این منظور باید دو مجموعه داده تولید نمود یک مجموعه داده در حقیقت زیر مجموعه ای (رکوردهایی) از مجموعه داده های اصلی می باشد ( داده های نمونهگیری شده) و مجموعه داده دوم حاوی رکودهایی (نقاطی) می باشد که به صورت تصادفی با توجه به توزیع داده های موجود، تولید شده اند. سپس برای هر دو مجموعه داده، باید فاصله هر مجموعه داده را با نزدیکترین همسایه خودش در دادههای اصلی پیدا نمود. در اینصورت u_i فاصله های نزدیکترین همسایگی برای داده های تصادفی تولید شده و w_i فاصله های نزدیکترین همسایگی برای داده های نمونه گیری شده، نسبت به دادههای اصلی می باشد. در این صورت آماره هاپکینز طبق زیر محاسبه می شود:
اگر دادههای تصادفی تولید شده از روی مجموعه داده و دادههای نمونه گیری شده تقریبا دارای فاصله یکسان با نزدیکترین همسایگی خود در مجموعه داده اصلی باشند، شاخص هاپکینز نزدیک به عدد 0.5 خواهد بود. اگر مقدار این مشخصه به صفر نزدیک باشد داده ها به شدت دارای الگوهایی هستند که منجر به میشود بتوان آنها را به خوشه های مجزا خوشه بندی نمود و اگر این مقدار نزدیک به 1 باشد یعنی داده ها به طور یکسان در فضای داده ای پراکنده شده اند و الگوی خاصی ندارند و با خوشه بندی این داده ها خوشه های متمایزی تولید نخواهد شد. نمودار شماره 1 و 2 حاوی مجموعه نقاطی (نمونه ها یا رکوردها) هستند که خوشه بندی شده اند. در حقیقت این داده ها در فضای دو بعدی هستند (دو متغیر دارند). در هر نمودار اعضای خوشه ها با اشکال متفاوت از هم مشخص شده است. آماره هاپکینز برای خوشه بندی اعمال شده در نمودار شماره 1 برابر 0.03 و برای خوشه بندی نمودار شماره 2 برابر 0.95 می باشد. همانطور که مشخص است خوشه ها در نمودار شماره 2 حتی با استنباط دیداری نیز قابل تمیز دادن هستند و به همین علت مقدار شاخص هاپکینز در آنها نزدیک به یک می باشد زیرا داده ها بطوری از هم متمایز بودند که قابلیت خوشه خوشه شدن راداشته اند. اما در مورد نمونه های موجود نمودار شماره 1، چون این نمونه ها خیلی پراکنده هستند الگوی خوشهای در آنها وجود ندارد و از آماره هاپکینز نیز می توان این نکته را پی برد.
شکل شماره 1
شکل شماره 2
[thrive_leads id='1265']