همان طور که در شکل مشاهده میکنید مراحل دادهکاوی به شرح زیر است:
مرحله اول: داده پیرایی
در این مرحله داده های مغشوش و ناسازگار حذف میشوند.
مرحله دوم: یکپارچهسازی دادهها
در این مرحله دادههایی که در چند منبع مختلف قرار دارند تجمیع و یکپارچه میشوند.
گاهی مراحل 1 و 2 (و گاهی مراحل 1 تا 4) را بر روی هم پیشپردازش مینامند. در این مرحله بر روی دادهها پردازش انجام میشود و نتایج در مخزن دادهها ذخیرهسازی میگردد.
مرحله سوم: انتخاب دادهها
در این مرحله دادههایی که مرتبط به کاوش موردنظر ما هستند بازیابی و انتخاب میشوند.
مرحله چهارم: تبدیل دادهها
در این مرحله دادههای بازیابیشده به قالبی که برای شروع داده کاوی مناسب است تبدیل میشوند.
مرحله پنجم: دادهکاوی
مرحله اساسی کار که در آن با روشهای هوشمند، الگوها از دادهها استخراج میگردند.
مرحله ششم: ارزیابی الگوها
تعیین الگوهای جالب نشاندهنده دانش
مرحله هفتم: ارائه دانش
تکنیکهای مختلفی که برای نمایش و بصریسازی دانش وجود دارد در این مرحله به کار گرفته میشود و دانش برای کاربران ارائه میگردد.
برخی کل این فرایند را کشف دانش در پایگاه داده مینامند و برخی نیز به کل این فرایند نام دادهکاوی را اطلاق میکنند.

پیشپردازش دادهها
پس از آنکه دادهها وارد کامپیوتر شد باید کیفیت آنها بررسی شود و با پیشپردازش، داده های بیکیفیت تغییر یافته و یا حذف گردد با توجه به آنکه تمامی عملیات دادهکاوی بر روی دادهها اعمال میشود انتخاب نادرست آنها و نیز کیفیت پایین دادهها کلیه نتایج کار را به مخاطره میاندازد.
دلایل اصلی پیشپردازشها
-آماده کردن داده ها در فرمت مناسب برای نرم افزار دادهکاوی مورد نظر
– ممکن است داده ها دارای آلودگی هایی باشند که باید برای داده کاوی این آلودگی به حداقل برسند. برای اعمال متدهای دادهکاوی باید متناسب با آن دادهها را تهیه کرد.
عملیات اصلی پیشپردازش دادهها
1.پاکسازی دادهها(CLEANING) : در این مرحله برخی از دادهها که دارای اشتباه تناقض و ناسازگار می باشد را از بین میبرد.
2.یکپارچه سازی (INTEGRATION): دراین مرحله دادههای ناهمگن پایگاه دادههای مختلف را در یک جا مجتمع نموده و همگن میکنیم.
3.تبدیل دادهها (TRANSFORMATION): در برخی از موارد با عملیات مانند هموارسازی و نرمالسازی می توان داده های بیکیفیت را به دادههای باکیفیت تبدیل کرد.
4.کاهش داده (REDUCTION): در این مرحله میتوانیم با روشهایی مثل خلاصهسازی یا استفاده از تکنیکهای ارائه مختلف حجم داده را کاهش دهیم.
گردآورنده: مهناز شرفخانی
[thrive_leads id='1265']