Silhouette شاخص سیلوئت
یکی از معیارهای متداول اعتبارسنجی خوشه بندی است. و دو معیار فواصل درون خوشه ای و برون خوشه ای را همزمان در نظر میگیرد
یک کتاب آموزشی زمانی ارزش خواهد داشت که خود نرم افزار هم در دسترس باشد، برای همین خود نرم افزار Rapid Miner را توی این پست برای استفاده شما قرار خواهم داد. البته یک فیلم آموزشی هم هست که به محض آپلود کردن باز هم در این تاپیک قرار خواهم داد.
خوشه بندی و دسته بندی
دسته بندی و پیش بینی دو نوع عملیات برای تحلیل داده ها و استخراج مدل به منظور دسته های مهم داده ها ، فهم و پیش بینی رفتار آینده آنها می باشند. مدلهای دسته بندی در تحلیل داده های گسسته و طبقه ای بکار رفته و مدل های پیش بینی یا رگرسیونی بیشتر بر روی داده های پیوسته کار می کنند. به عنوان مثال یک مدل دسته بندی ممکن است برای دسته بندی کردن وامهای بانک به دو طبقه وامهای بی خطر و پر خطر ، به کار رود در حالی که مدل های پیش بینی به کار گرفته شده در این کسب کار خاص ، سعی در پیش بینی مخارج و هزینه های مشتریان براساس ویژگیهای درآمدی و شغلی آنها دارند . دسته بندی ، فرآیند یافتن مدلی است که با تشخیص دسته ها یا مفاهیم داده می تواند دسته های ناشناخته اشیاء دیگر را پیش بینی کند. دسته بندی یک تابع یادگیری است که یک قلم داده را به یکی از دسته های از قبل تعریف شده نگاشت می کند . داده های موجود به دو قسمت آموزش و آزمون تقسیم می شوند .داده های آموزش برای یادگیری قواعد توسط سیستم استفاده می شوند و داده های آزمون برای بررسی دقت مدل به کار می روند . مدل های دسته بندی در تحلیل داده های گسسته و طبقه ای به کار می روند .دسته بندی یک یادگیری با نظارت محسوب می شود
مدل های خوشه بندی بر تشخیص گرو ه هایی از رکوردهای مشابه و نام گذاری آن رکوردها با توجه به خوشه ای که به آن تعلق دارند ، تمرکز دارند.این عمل بدون داشتن دانش قبلی در مورد خوشه ها و ویژگی های انها صورت می گیرد.مبنای روش های خوشه بندی اندازه گیری فاصله ما بین رکوردها و خوشه هاست . رکوردها به طریقی به خوشه ها اختصاص داده می شوند که فاصله بین رکوردها متعلق به یک خوشه کمینه باشد
جهت وفاداری مشتری RFMطراحی یک متدلوژی مبتنی بر
چکیده
داده کاوی یکی از تکنیک های جدید برای کاوش الگو ها با توجه به داده های مشتریان است که سبب بهبود ارتباط با مشتری می شود و از ابزار ها مطرح در مدیریت ارتباط با مشتری می باشند. موضوع به این دلیل اهمیت دارد که سازمانها برای موفقیت در کسب و کار لازم دارند مشتریانشان را به درستی بشناسند و نیاز ها و خواسته های آنها را پیش بینی کنند
کاربرد داده کاوی در بیماری افسردگی
چکیده
هدف از این تحقیق شناسایی عوامل موثر در تشخیص بیماری افسردگی میباشد.داده ها مربوط به بیمارانی با درصد افسردگی کم ،متوسط و زیاد میباشد. عوامل متعددی در تشدید بیماری افسردگی دخیل هستند در این تحقیق مهمترین عوامل عبارتند از عدم فعالیتهای ورزشی ، ایمان و اعتقادات دینی پایین،مجرد بودن،داشتن دوست از جنس مخالف موسیقی زیادو
کاربرد داده کاوی در تحلیل سبد بازار
چکیده
یکی از حالت های تحلیل قواعد تلازمی ، تجزیه و تحلیل سبد بازار میباشد.پیشرفت فناوری فروشگاه ها را قادر می سازد تا حجم زیادی از داده های خرید مشتریان را جمع آوری و ذخیره نمایند .هر مشتری خرید مجزایی را در مقادیر مختلف و زمانهای متفاوت انجام می دهد و داده های موجود در سبد بازار نشان دهنده خرید مشتری در یک زمان خاص است . با تجزیه و تحلیل سبد بازار خرده فروشان می توانند رفتار مشتریان را پیش بینی کنند. این کار به آنها کمک می کند تا بتوانند کالای های خود را بهتر سازماندهی کرده و چیدمان بهتری از محصولات خود داشته باشند و از این طریق سودآوری خود را افزایش دهند
کاربرد داده کاوی در عود مجدد سرطان پستان
چکیده
امروزه در دانش پزشکی شاهد جمع آوری داده های فراوان در مورد بیماری های مختلف هستیم .تحقیق روی این داده ها و بدست آوردن نتایج و الگو های مفید در رابطه با بیماری ها یکی از اهداف استفاده از این داده ها است. سرطان پستان یکی از شایع ترین انواع سرطان ها در زنان است. طبق محاسبات انستیتو ملی سرطان ایالات متحده آمریکا، از هر هشت زن یک نفر در زندگی خود مبتلا به سرطان پستان میشود این سرطان در صورتی که به موقع تشخیص دادهشود به راحتی قابل درمان است
کاربرد داده کاوی در پیش بینی بیماری قلبی
چکیده
امروزه در دانش پزشکی شاهد جمع آوری داده های فراوان در مورد بیماری های مختلف هستیم.تحقیق روی این داده ها و بدست آوردن نتایج و الگو های مفید در رابطه با بیماری ها یکی از اهداف استفاده از این داده ها است.در این پروژه برای بدست آوردن روابط مفید بین عوامل خطر زا در بیماری قلبی استفاده کرده ایم.این بیماری با توجه به شیوه و سهمی که در مرگ و میر انسانها دارند از اهمیت بالایی برخوردار ند.با اعمال داده کاوی روی این داده ها مهمترین متغیرها در ارتباط با آنژین صدری ناشی از ورزش، نوع درد سینه ،قند خون ، سن ، حداکثر ضربان قلب و فشار خون است
کاربرد داده کاوی در مدیریت بیمه
چکیده
با توجه به پیشرفت سریع فناوری اطلاعات حجم اطلاعات ذخیره شده در پایگاه های داده شرکت های بیمه به سرعت در حال افزایش است .در این تحقیق ضمن بررسی اجمالی داده کاوی به نقش آن در کشف دانش موجود در پایگاه های داده و بهبود امور مرتبط با صنعت بیمه می پردازد بیشتر هدف در این تحقیق این است که بدانیم چه قرار دادهایی برای بیمه سود آور و چه نوع قرار داده هایی برای بیمه غیر سود آور(زیان آور ) می باشد
کاربرد داده کاوی در بیماری سرطان
چکیده
هدف این تحقیق بررسی و شناخت عوامل موثر بر بیماری سرطان از نوع خوش خیم و بدخیم می باشد . ابتدا با بررسی منابع مشخص گردید که در بروز بیماری سرطان از نوع خوش خیم و بدخیم عوامل گوناگونی مانند یکنواختی اندازه سلول ، ضخامت و انبوه تومور، کروماتین ملایم و هستک طبیعی نقش زیادی دارند که از این بین نقش یکنواختی اندازه سلول و ضخامت انبوه تومور بیش از سایر عوامل میباشد
نرم افزار کاربردی داده کاوی
Weka نرم افزار داده کاوی وکا
یک بسته نرم افزاری منبع باز است که در دانشگاهی در نیوزلند آن را با جاوا طراحی و پیاده سازی نموده اند . این نرم افزار شامل مجموعه ای از الگوریتم های داده کاوی مانند دسته بندی ، خوشه بندی ،رگرسون ، عملیاتی جهت پیش پردازش داد ه ها ،یافتن وابستگی ها و ابزاری برای بصری سازی است
RapidMiner نرمافزار داده کاوی رپیدماینر
نرم افزار منبع باز رپیدماینر دارای امکاناتی جهت پیش پردازش داده ها و تکنیک های متنوع داده کاوی از جمله دسته بندی ،خوشه بندی و قواعد انجمنی است . این نرم افزار با مجموعه بسته هایی که به آن افزوده می شود میتواند با داده های حجیم نیز به خوبی عمل کند . در ضمن می توان الگوریتم های داده کاوی وکا را نیز به آن اضافه کرد
Clementine12 نرم افزار داده کاوی کلمنتاین
نرم افزار کلمنتاین یکی از نرم افزار های پیشرو در علم داده کاوی می باشد . این نرم افزار دارای ویژگیهای مثبتی است که کاربران را جذب خود کرده است . یکی از این ویژگیها طراحی واسط کاربر این نرم افزار است که باعث می شود کاربران به راحتی بتوانند با این نرم افزار ارتباط برقرار کرده و مدلهای مورد نظر را از طریق آن بسازند .از سوی دیگر این نرم افزار برای افرادی که برنامه نویسی نمی دانند نیز قابل استفاده می باشد چرا که برای مدلسازی در این نرم افزار نیازی به برنامه نویسی نیست .نرم افزار مورد نظر که بر اساس مدل استاندارد کریسپ طراحی شده است ، از تمامی مراحل فرآیند داده کاوی از زمان ورود داده خام تا حاصل شدن نتایج مورد انتظار پشتیانی می نماید.
Bagging
در این روش مجموعه داده اصلی با استفاده از روش نمونه برداری با جایگذاری به تعدادی مجموعه داده تقسیم بندی می شود . در این ایده چون از روش نمونه برداری با جایگذاری برای نمونه برداری استفاده می شود در نتیجه برای مجموعه داده های با تعداد رکوردهای کم نیز مناسب است در نهایت بر اساس هر کدام از نمونه ها دسته بند ساخته می شود .
Boosting
این روش از یک الگوریتم تکرار شونده استفاده می کند تا به طور تطبیقی توزیع نمونه های آموزشی را تغییر دهد و در فرآیند یادگیری بیشتر بر روی رکوردهایی که در مراحل قبلی به اشتباه دسته بندی شده اند تمرکز دارد .در این ایده در انتهای هر مرحله ممکن است وزن نمونه ها تغییر کند به این صورت که وزن رکورد هایی که به اشتباه دسته بندی شده اند افزایش یافته و وزن رکوردهایی که به درستی دسته بندی شده اند کاهش می یابد
فرق آمار و داده کاوی
قابلیت تعمیم نتایج عمومی یکی از مشخصههای متمایز کننده داده کاوی و تحلیل آماری است. از آنجائیکه روشهای مرسوم تحلیل آماری در رابطه با تحلیل دادههای اولیهای است که در ارتباط با فرضیه تحقیقاتی ویژهای جمعآوری شدهاند؛ داده کاوی میتواند در ارتباط با دادههای ثانویهای که به دلایل مختلف جمعآوری شده است، باشد. به عنوان مثال دادههایی که در یک انبار داده جمعآوری شده است.
از این گذشته دادههای آماری میتوانند دادههای حاصل از آزمایشهای مختلف باشد (مانند نتایج یک آزمایش که به طور تصادفی در رفتارهای مختلف به همه واحدهای آماری تخصیص داده میشوند)، اما در داده کاوی دادهها بیشتر مشاهدهای می باشد.
یک رویکرد دیگر برای بیان تفاوت تحلیلهای آماری با داده کاوی، موضوع تحلیل بالا به پایین و پایین به بالا است. روش بالا به پایین یا روش تحلیـلی تایید کننده، نوعـی تایید و تصدیق کردن فرضیه هاست و سعی در گسترش آگاهی در مورد یک پدیده ویژه است. در روشهای آماری سعی میشود با استفاده از تحلیل هایی که مربوط به آمار هستند روابطی را که از قبل در بین دادهها وجود داشته تایید نمایند. درحالی که در داده کاوی که نوعی از تحلیل پایین به بالا یا تحلیل مکاشفه ایست سعی در یافتن اطلاعات مفید از اطلاعات قبلی که مورد توجه نبوده اند دارد. هدف از جستجو در داده ها در داده کاوی بررسی ارتباط بین آن ها و ایجاد نتایج و نظریه های جدید است. نتایج بدست آمده از تحلیل پایین به بالا سعی در معرفی ارتباط بین داده ها دارد ولی نمیتواند در مورد علت مفید بودن این کشفیات و میزان ارزشمندی آنها توضیح دهد. تحلیل های بالا به پایین که به عنوان ابزارهای تایید کننده شناخته میشوند در تایید کشفیات و ارزیابی کیفیت تصمیم گیری های مبتنی بر این کشفیات مورد استفاده قرار میگیرند.
: از جنبه دیگر میتوان سه فرق اساسی را بین داده کاوی و تحلیل های آماری قائل شد
داده کاوی حجم بسیار زیادی از داده ها را تحلیل میکند. به علت محدودیت منابع رایانهای در یک لحظه نمی توان به همه دادهها دسترسی داشت تا بتوان تحلیل های آماری روی آنها انجام داد
ساختار داده ها در بسیاری از موارد به صورت مرسوم و رده ای ذخیره نشده است (مانند داده های موجود در اینترنت) بنابراین روشهای تحلیل آماری در این نوع داده ها ضعف دارند
نتایج حاصل از داده کاوی کم و بیش باید مفید و نتیجه بخش باشند. این موضوع موجب میشود تا رویکرد اساسی در داده کاوی به سمت تجاری بودن آن باشد
[thrive_leads id='1265']