جایگاه داده کاوی در میان علوم مختلف
ریشه های داده کاوی در میان سه خانواده از علوم، قابل پیگیری می باشد‎

  1. مهمترین این خانواده ها، آمار کلاسیک می باشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوریکه آمار، اساس اغلب تکنولوژی هایی می باشد که داده کاوی بر روی آنها بنا می شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصله های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده ها می باشد، را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیکهای داده کاوی ایفا می کند. 
  2. دومین خانواده ای که داده کاوی به آن تعلق دارد هوش مصنوعی می باشد. هوش مصنوعی که بر پایه روشهای ابتکاری می باشد و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری بکار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه 1980 عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ با عث شد همه افراد نتوانند از تکنیکهای ارائه شده استفاده کنند.
  3. سومین خانواده داده کاوی، یادگیری ماشین می باشد، که به مفهوم دقیقتر، اجتماع آمار و هوش مصنوعی می باشد. درحالیکه هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد، چون مخلوطی از روشهای ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می باشد. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده ای که آنها مطالعه می کنند، مانند برنامه هایی که تصمیمهای متفاوتی بر مبنای کیفیت داده مطالعه شده می گیرند، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده می کنند و از الگوریتمها و روشهای ابتکاری، هوش مصنوعی را برای رسیدن به هدف بهره می گیرند.

بهترین توصیف از داده کاوی بوسیله اجتماع آمار، هوش مصنوعی و یادگیری ماشین بدست می آید. این تکنیکها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آنها استفاده می شوند. در شکل 1-3 ریشهای داده کاوی را می­توان مشاهده کرد.

شکل 1-3 ریشه های اصلی داده کاوی

1-5 بعضی از کارکردهای داده کاوی
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است. 

  • توصیفی: فرايند جستجو در يك بانك داده براي يافتن الگوهاي پنهان، بدون داشتن يك فرضيه از پيش تعيين شده درباره اينكه اين الگو ممكن است چه باشد. 
    مانند تحليلهايي كه برحسب كالاهاي خريداري شده صورت مي گيرد، اينگونه تحليلهاي سبدي نشانگر موارديست كه مشتري تمايل به خريد آنها دارند. اين اطلاعات مي تواند به بهبود موجودي، استراتژي طراحي، آرايش فروشگاه و تبليغات منجر گردد. 

 

  • مدل پيش بيني: فرايندي كه الگوهاي كشف شــده از بانك داده را مي گيرد و آنها را براي پيش بيني آينده به كار مي برد. 
    مانند پيش بيني فروش در خرده فروشي، الگوهاي كشف شده براي فروش به آنها كمك مي كند تا تصميماتي را در رابطه با موجودي اتخاذ كنند. 

 

1-6 روشهای داده کاوی

خود روشهای داده­کاوی به سه دسته کلی تقسيم می­شوند که عبارتند از خوشه­بندی، طبقه­بندی و کشف قواعد وابستگی. در ادامه هر يک از اين روشها را بطور کلی معرفی می­نماييم.

1-6-1 خوشه­بندی

فرآيند خوشه­بندی سعی دارد که يک مجموعه داده را به چندين خوشه­ تقسيم نمايد بطوريکه داده­های قرار گرفته در يک خوشه با يکديگر شبيه بوده و با داده­های خوشه­های ديگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشه­بندی داده­ها وجود دارد که بر اساس نوع داده­ها، شکل خوشه­ها، فاصله داده­ها و غيره عمل خوشه­بندی را انجام می­دهند. مهمترين روشهای خوشه­بندی در زير معرفی شده­اند:

  • روشهای تقسيم­بندی: روشهای خوشه­بندی که بروش تقسيم بندی عمل می­کنند، داده­های موجود در يک مجموعه داده را به k خوشه تقسيم می­کنند، بطوريکه هر خوشه دو خصوصيت زير را داراست:
    • هر خوشه يا گروه حداقل شامل يک داده می­باشد.
    • هر داده موجود در مجموعه داده دقيقا به يک گروه يا خوشه تعلق دارد.

معيار اصلی در چنين مجموعه داده­هايی ميزان شباهت داده­های قرار گرفته در هر خوشه می­باشد. در حاليکه داده­های قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادی دارند. مقدار k که بعنوان پارامتر استفاده می­گردد، هم می­تواند بصورت پويا تعيين گردد و هم اينکه قبل از شروع الگوريتم خوشه­بندی مقدار آن مشخص گردد.

  • روشهای سلسله مراتبی: روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسيم می­گردند. روشهای سلسله مراتبی bottom-up به اين صورت عمل می­کنند که در شروع هر کدام از داده­ها را در يک خوشه جداگانه قرار می­دهد و در طول اجرا سعی می­کند تا خوشه­هايی نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زمانی که يا تنها يک خوشه داشته باشيم و يا اينکه شرط خاتمه برقرار گردد، ادامه می­يابد. روشهای top-down دقيقا بطريقه عکس عمل می­کنند، به اين طريق که ابتدا تمام داده­ها را در يک خوشه­ قرار می­دهد و در هر تکرار از الگوريتم، هر خوشه به خوشه­های کوچکتر شکسته می­شود و اينکار تا زمانی ادامه می­يابد که يا هر کدام از خوشه­ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر يا خوشه می­باشد.
  • روشهای مبتنی بر چگالی: اکثر روشهای خوشه­بندی که بروش تقسيم­بندی عمل می­کنند معمولا از تابع فاصله بعنوان تابع معيار خود بهره می­برند. استفاده از چنين معياری باعث می­گردد که الگوريتم خوشه­بندی تنها قادر به ايجاد خوشه­هايی با اشکال منظم باشد. در صورتيکه اگر خوشه­های واقعی در داده­ها دارای اشکال غيرمنظمی باشند، اين الگوريتم­ها در خوشه­بندی آنها با مشکل مواجه می­گردند. برای حل اينگونه مشکلات يکسری از روشها برای خوشه­بندی پيشنهاد گرديده­اند که عمل خوشه­بندی را بر مبنای چگالی داده­ها انجام می­دهند. ايده اصلی در اين روشها بر اين اساس است که خوشه­ها تا زمانی که داده­های قرار گرفته همسايگی خوشه­ها از حد معينی بيشتر باشد، رشد می­کنند و بزرگ می­شوند. چنين روشهايی قادرند خوشه­هايی با شکلهای نامنظم نيز ايجاد نمايند.

 

1-6-2- کشف قواعد وابستگی

بحث قواعد وابستگی به مقوله کشف عناصری يا المان­هايی در يک مجموعه داده می­پردازد که معمولا با يکديگر اتفاق می­افتند و بعبارتی رخداد آنها بنوعی با يکديگر ارتباط دارد. بطور کلی هر قاعده يا rule که از اين مجموعه داده­ بدست می­­آيد، دارای شکل کلی بصورت می­باشد که نشان می­دهد چنانچه الگوی X اتفاق بيفتد، با احتمال بالايی الگوی Y نيز اتفاق خواهد افتاد.

1-6-3- طبقه­بندی

فرايند طبقه­بندی در واقع نوعی يادگيری با ناظر می­باشد که در طی دو مرحله انجام می­گردد. در مرحله اول مجموعه­ای از داده­ها که در آن هر داده شامل تعدادی خصوصيت دارای مقدار و يک خصوصيت بنام خصوصيت کلاس می­باشد، برای ايجاد يک مدل داده بکار می­روند که اين مدل داده در واقع توصيف کننده مفهوم و خصوصيات مجموعه داده­هايی است که اين مدل از روی آنها ايجاد شده است. مرحله دوم فرآيند طبقه­بندی اعمال يا بکارگيری مدل داده ايجاد شده بر روی داده­هايی است که شامل تمام خصوصيات داده­هايی که برای ايجاد مدل داده بکار گرفته­ شده­اند، می­باشد، بجز خصوصيت کلاس اين مقادير که هدف از عمل طبقه­بندی نيز تخمين مقدار اين خصوصيت می­باشد.

الگوريتم­ها و روشهای مختلفی برای طبقه­بندی تاکنون پيشنهاد شده­اند که برای مثال می­توان از روشهای طبقه­بندی با استفاده از درخت تصميم، طبقه­بندی بيزين، SVM، طبقه­بندی با استفاده از شبکه­های عصبی، طبقه­بندی مبتنی بر قواعد و … نام برد

1-6-3-1- طبقه­بندی مبتنی بر قواعد

در اين قسمت قصد داريم نگاهی به بحث طبقه­بندی مبتنی بر قواعد داشته باشيم. دراين روش مدل ايجاد شده از روی داده­ها بصورت مجموعه­ای از قواعد می­باشد. می­توان گفت که هر قاعده بصورت يک قاعده IF P THEN C می­باشد که در آن P مجموعه­ای از شرايط بوده و C نيز مشخص کننده برچسب يک کلاس يا طبقه­ خاص می­باشد. يک قاعده بدست آمده از مجموعه داده­های آموزشی با استفاده از دو معيار coverage و accuracy می­تواند ارزيابی گردد. اين دو معيار بصورت زير تعريف می­گردند:

         (1-1)

 

(1-2)

 

که در تعاريف مذکور تعداد داده­هايی در مجموعه داده D است که توسط قاعده پوشش داده می­شوند. تعداد داده­هايی است که توسط قاعده بدرستی طبقه­بندی شده­اند. تعداد داده­های موجود در D می­باشد.

نکته مهمی بايد اينجا به آن اشاره کرد اين بحث است که چگونه داده­ها توسط اين قواعد طبقه­بندی می­گردند. همانطور که اشاره گرديد اين قواعد دارای يک قسمت شرط (P) و يک قسمت C هستند. P يک الگو بصورت ( ) می­باشد که هر کدام از ها بيان کننده يک محدوديت برای يکی از خصوصيات هستند. اگر خصوصيات داده­ای محدوديت­های مذکور قاعده­ای را برآورده سازد آنگاه کلاس يا طبقه­بند آن داده، کلاس يا طبقه­ای است که آن قاعده (C) بيان می­کند. اما مساله مهمی که اينجا پيش می­آيد، اين مساله است که اگر يک داده در قسمت شرط (P) بيش از يک قاعده صدق کند، آنگاه کدام قاعده را بايد انتخاب کرد. بسته به استراتژی­های مختلف اين مشکل جوابهای مختلفی می­تواند داشته باشد. دو نمونه از مهمترين استراتژی­هايی که معمولا برای حل اين مشکل بکار می­روند، استراتژی­های size ordering و rule ordering می­باشند.

در استراتژی size ordering چنانچه يک داده در بيش از يک قاعده صدق کند، قاعده­ای برای طبقه­بندی داده انتخاب می­شود که خصوصيات بيشتری را برای مشخص نمودن کلاس داده تست کرده باشد. در استراتژی rule ordering از پيش قواعد اولويت دهی می­شوند و هنگام طبقه­بندی قاعده با اولويت بالاتر، مشخص کننده کلاس داده خواهد بود. اولويت دهی به قواعد هم به طریق مختلفی ممکن است انجام گردد. برای مثال ممکن است که ابتدا کلاسها اولويت­دهی شوند و قواعد مربوط به هر کلاس نيز با تاثير پذيری از اين اولويت دهی، اولويت بگيرند. اولويت کلاسها نيز ممکن است بر اساس اهميت کلاس يا تعداد داده­های متعلق به آن کلاس و يا … مشخص گردد. استراتژی­های ديگری نيز در اين زمينه وجود دارند که ما در اينجا درباره آنها صحبت نمی­کنيم. مساله ديگری که ممکن پيش بيايد اين است که يک داده با هيچکدام از قواعد همخوانی نداشته باشد. برای اين مساله هم می­توان راه­حلهايی ارائه نمود. معمول­ترين راه­حل اين است که چنانچه داده­ای با هيچ يک از قواعد همخوانی نداشت، کلاسی بعنوان کلاس آن داده انتخاب گردد که بيشترين تعداد داده در بين داده­ها به آن کلاس تعلق دارد.

مورد ديگری هم که اينجا قابل ذکر است اين مطلب است که قواعدی که برای طبقه­بندی استفاده می­شوند، چگونه ايجاد می­گردند. البته ما نمی­خواهيم در اينجا وارد جزئيات مربوط به استخراج قواعد از داده­ها آموزشی شويم. برای استخراج قواعد از مجموعه داده­های آموزشی معمولا از دسته­ای از الگوريتمها بنام الگوريتمهای SCA (sequential covering algorithm) استفاده می­گردد که اين الگوريتمها در هر مرحله يک قاعده را از داده­های آموزشی يادگرفته و داده­هايی را که از آن قاعده پيروی می­کنند را از مجموعه داده­های آموزشی خود حذف می­کنند و با داده­های باقيمانده، کار خود را ادامه می­دهند. از نمونه الگوريتمهای معروف SCA می­توان به AQ، CN2 و RIPPER اشاره نمود. البته قابل ذکر است که برای کشف قواعد می­توان از روشهای ايجاد درخت تصميم و يا کشف قواعد وابستگی نيز استفاده نمود. در درخت تصميم هر مسير از ريشه تا يک برگ را می­توان بعنوان قسمت P قاعده در نظر گرفت و کلاسی که برگ مشخص می­کند، قسمت C خواهد بود.

[thrive_leads id='1265']
author-avatar

حدود علی ایوبی

من علی ایوبی هستم متخصص و مدرس بازاریابی اینترنتی، به کسانی که نیاز به دیجیتال مارکتینگ خود را دارند کمک می کنم که بتوانید سیستم بازاریابی آنلاین خود را راه اندازی کنند به نظرم من دلیل شکست شکست کسب و کارها نداشتن سیستمی برای جذب مخاطب(ترافیک) و تبدیل آن به مشتری(تبدیل) است روش کار من استفاده از سیستم قیف های فروش(Funnel) است.

بازگشت به لیست
0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها