هر پروژه داده کاوی مانند دیگر پروژه های سیستم اطلاعات باید مدیریت شود.به دلیل این که اصلیترین قسمت هر پروژه داده کاوی حرکت مرحله به مرحله برای رسیدن به هدف داده کاوی است می توان گفت که بیان مراحل داده کاوی از مهم ترین قسمتهای داده کاوی می باشد که در زیر روش کشف دانش دارای مراحل تکراری زير است:
- پاکسازی داده ها (از بين بردن نويز و ناسازگاری داده ها)
- يکپارچه سازی داده ها (چندين منبع داده ترکيب می شوند)
- انتخاب داده ها (داده های مرتبط با آناليزازپايگاه داده بازيابی می شوند)
- تبديل کردن داده ها (تبديل داده ها به فرمی مناسب برای داده کاوی: مثل خلاصه سازی و همسان سازی)
- داده کاوی (فرايند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته مي شوند)
- ارزيابی الگو (برای مشخص کردن الگوهای صحيح و مورد نظربه وسيله معيارهای اندازه گيری)
- ارائه دانش (يعنی نمايش بصری، تکنيکهای بازنمايي دانش برای ارائه دانش کشف شده به کاربر استفاده شود)
یکی دیگر از فرایندهای مهم داده کاوی که توسط شرکت های بزرگ پشتبیانی و استفاده می شود فرایند کراسپ- داده کاوی است که یک فرایند تکراری است در قسمت زیر توصیح داده شده است.
کریسپ یکی از روشهای برای انجام مرحله به مرحله پروژه های داده کاوی است که بیشترین استفاده را در بین بقیه روشها دارد. کریسپ-داده کاوی [1] در اواخر سال 1996 توسط سه شرگت بزرگ داده کاوی کهنه کار و با تجربه طرح ریزی شد
این روش در نرم افزار بسیار کارای کلمنتاین برای داده کاوی استفاده می شود.
در زمان که داده کاوی مراحل ابتدایی خود را شورع کرده بود، علاقه بازار اولیه در داده کاوی علامت هایی از گسترده شدن را نشان داده بود. هم مهیج بود و هم وحشتناک بود. همه ما همانطور که ادامه می دهیم خط مشی هایمان را به سوی داده کاوی گسترده می نماییم. آیا ما به درستی این کار را انجام داده ایم؟ آیا وفق دهنده جدید برای هر گام داده کاوی باید تعلیم داده شود، همانطور که ما در آغاز توسط آزمون و خطا انجام می دهیم. و از منظر یک تهیه کننده، چگونه می توانیم به مشتریان آتی اثبات کنیم که داده کاوی به اندازه کافی به حد کمال رسیده است که به عنوان کلید اصلی پروسه های تجاری آنها وفق داده می شود؟ چگونه یک پروژه داده کاوی به بهترین کیفیت خود میرسد؟
این سوالات و بسیار دیگری از سوالات ما را به سمت یک پروژه مرحله به مرحله داده کاوی سوق می دهد. این فرایند در زیر توضیح داده می شود.
در تمام این مدت، تهیه کنندگان سرویس را از بیرون کنسرسیوم دیدیم که با کریسپ-داده کاوی وفق داده شده بودند. بازگشت به آن را توسط تحلیلگران بعنوان استانداردهای غیر رسمی برای صنعت و یک آگاهی رو به رشد از اهمیت آن دربین مشتریان تکرار می کنیم (کریسپ-داده کاوی اکنون غالباً در فراخوانی ها برای مناقصه و در مستندات RFP ارجاع داده می شود.) ما معتقدیم ابتکاراتمان کاملاً پشتیبانی شده است و مادامیکه توسعه ها و پیشرفت های آینده هم مطلوب و هم بدیهی است، ما به نسخه 1.0 کریسپ داده کاوی بقدر کافی رسیدگی می کنیم تا منتشر و توزیع شود.
1-7-1- ویژگیهای متدولوژی کریسپ – داده کاوی
- تقسیم بندی سلسله مراتبی
- مدل مرجع و راهنمای کاربر
- نگاشت مدل های عمومی به مدل های اختصاصی
1-7-2- مدل مرجع کریسپ – داده کاوی
در 6 مرحله کلی انجام می شود که باید با دقت در مرحله انجام گیرد و اگر در هر مرحله به درستی انجام نگرید کیفیت کل پروژه کاهش مییابد.
مراحل فرایند داده کاوی شش مرحله ای در زیر آمده است.
- درک کسب و کار
- شناخت داده ها
- آماده سازی داده ها
- مدل سازی
- ارزیابی
- به کار گیری
که در قسمت زیر این مدل با دقت بسیار بهتری ارائه شده است. در این شکل قسمت هایی برای بازگشت وجود دارد که زمانی دقت مدل یا مرحله پایین بود باید به مرحله و یا مراحل قبلی باز گشت تا اصلاعاتی را در آن انجام دهیم.
[thrive_leads id='1265']