برخی اوقات کاربران فکر می کنند که به هر نحوی می توانند داده ها را خوشه بندی نمایند و پس از خوشه بندی می توانند بفهمند که آیا نتایج قابل قبولی استخراج شده یا خیر. در اینصورت باید داده‌ها را با استفاده از روش‌های خوشه‌بندی مختلف خوشه بندی نمود و سپس بررسی کرد که آیا خوشه‌بندی خوب انجام شده است یا خیر. برخی اوقات هم به هیچ وجه نمی توان داده ها را خوشه بندی نمود یعنی با استفاده از روش‌های مختلف خوشه بندی و ارزیابی این خوشه‌ها، نتیجه رضایت بخشی حاصل نمی شود.

در این مواقع باید سنجید که آیا واقعا خوشه‌هایی در مجموعه داده وجود دارد یا خیر. یعنی پیش از خوشه بندی داده‌ها، باید با استفاده از روش‌های آماری بررسی نمود که آیا مجموعه داده‌ها تمایلی به ساختن خوشه دارند یا خیر. استفاده از روش‌های آماری برای آزمون این فرض اغلب سخت و زمان بر می باشد. در حقیقت فرض صفر در اینجا این است که داده‌های موجود بر خلاف داده‌های اتفاقی تولید شده از روی داده های موجود، دارای تمایل به خوشه خوشه شدن هستند.

 یکی از ابزارهای آماری برای بررسی این شرایط استفاده از آزمون هاپکینز (Hopkins) می باشد. برای این منظور باید دو مجموعه داده تولید نمود یک مجموعه داده در حقیقت زیر مجموعه ای (رکوردهایی) از مجموعه داده های اصلی می باشد ( داده های نمونه‌گیری شده) و مجموعه داده دوم حاوی رکودهایی (نقاطی) می باشد که به صورت تصادفی با توجه به توزیع داده های موجود، تولید شده اند. سپس برای هر دو مجموعه داده، باید فاصله هر مجموعه داده را با نزدیکترین همسایه خودش در داده‌های اصلی پیدا نمود. در اینصورت u_i فاصله های نزدیکترین همسایگی برای داده های تصادفی تولید شده و w_i فاصله های نزدیکترین همسایگی برای داده های نمونه گیری شده، نسبت به داده‌های اصلی می باشد. در این صورت آماره هاپکینز طبق زیر محاسبه می شود:

اگر داده‌های تصادفی تولید شده از روی مجموعه داده و داده‌های نمونه گیری شده تقریبا دارای فاصله یکسان با نزدیکترین همسایگی خود در مجموعه داده اصلی باشند، شاخص هاپکینز نزدیک به عدد 0.5 خواهد بود. اگر مقدار این مشخصه به صفر نزدیک باشد داده ها به شدت دارای الگوهایی هستند که منجر به می‌شود بتوان آنها را به خوشه های مجزا خوشه بندی نمود و اگر این مقدار نزدیک به 1 باشد یعنی داده ها به طور یکسان در فضای داده ای پراکنده شده اند و الگوی خاصی ندارند و با خوشه بندی این داده ها خوشه های متمایزی تولید نخواهد شد. نمودار شماره 1 و 2 حاوی مجموعه نقاطی (نمونه ها یا رکوردها) هستند که خوشه بندی شده اند. در حقیقت این داده ها در فضای دو بعدی هستند (دو متغیر دارند). در هر نمودار اعضای خوشه ها با اشکال متفاوت از هم مشخص شده است. آماره هاپکینز برای خوشه بندی اعمال شده در نمودار شماره 1 برابر 0.03 و برای خوشه بندی نمودار شماره 2 برابر 0.95 می باشد. همانطور که مشخص است خوشه ها در نمودار شماره 2 حتی با استنباط دیداری نیز قابل تمیز دادن هستند و به همین علت مقدار شاخص هاپکینز در آنها نزدیک به یک می باشد زیرا داده ها بطوری از هم متمایز بودند که قابلیت خوشه خوشه شدن راداشته اند. اما در مورد نمونه های موجود نمودار شماره 1، چون این نمونه ها خیلی پراکنده هستند الگوی خوشه‌ای در آنها وجود ندارد و از آماره هاپکینز نیز می توان این نکته را پی برد.
تمایل داده ها به خوشه شدن

شکل شماره 1

تمایل داده ها به خوشه شدنشکل شماره 2

[thrive_leads id='1265']
author-avatar

حدود علی ایوبی

من علی ایوبی هستم متخصص و مدرس بازاریابی اینترنتی، به کسانی که نیاز به دیجیتال مارکتینگ خود را دارند کمک می کنم که بتوانید سیستم بازاریابی آنلاین خود را راه اندازی کنند به نظرم من دلیل شکست شکست کسب و کارها نداشتن سیستمی برای جذب مخاطب(ترافیک) و تبدیل آن به مشتری(تبدیل) است روش کار من استفاده از سیستم قیف های فروش(Funnel) است.

بازگشت به لیست
0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها