جایگاه داده کاوی در میان علوم مختلف
ریشه های داده کاوی در میان سه خانواده از علوم، قابل پیگیری می باشد
- مهمترین این خانواده ها، آمار کلاسیک می باشد. بدون آمار، هیچ داده کاوی وجود نخواهد داشت، بطوریکه آمار، اساس اغلب تکنولوژی هایی می باشد که داده کاوی بر روی آنها بنا می شود. آمار کلاسیک مفاهیمی مانند تحلیل رگرسیون، توزیع استاندارد، انحراف استاندارد، واریانس، تحلیل خوشه، و فاصله های اطمینان را که همه این موارد برای مطالعه داده و ارتباط بین داده ها می باشد، را در بر می گیرد. مطمئنا تحلیل آماری کلاسیک نقش اساسی در تکنیکهای داده کاوی ایفا می کند.
- دومین خانواده ای که داده کاوی به آن تعلق دارد هوش مصنوعی می باشد. هوش مصنوعی که بر پایه روشهای ابتکاری می باشد و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری بکار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه 1980 عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ با عث شد همه افراد نتوانند از تکنیکهای ارائه شده استفاده کنند.
- سومین خانواده داده کاوی، یادگیری ماشین می باشد، که به مفهوم دقیقتر، اجتماع آمار و هوش مصنوعی می باشد. درحالیکه هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد، چون مخلوطی از روشهای ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می باشد. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده ای که آنها مطالعه می کنند، مانند برنامه هایی که تصمیمهای متفاوتی بر مبنای کیفیت داده مطالعه شده می گیرند، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده می کنند و از الگوریتمها و روشهای ابتکاری، هوش مصنوعی را برای رسیدن به هدف بهره می گیرند.
بهترین توصیف از داده کاوی بوسیله اجتماع آمار، هوش مصنوعی و یادگیری ماشین بدست می آید. این تکنیکها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آنها استفاده می شوند. در شکل 1-3 ریشهای داده کاوی را میتوان مشاهده کرد.
شکل 1-3 ریشه های اصلی داده کاوی
1-5 بعضی از کارکردهای داده کاوی
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
- توصیفی: فرايند جستجو در يك بانك داده براي يافتن الگوهاي پنهان، بدون داشتن يك فرضيه از پيش تعيين شده درباره اينكه اين الگو ممكن است چه باشد.
مانند تحليلهايي كه برحسب كالاهاي خريداري شده صورت مي گيرد، اينگونه تحليلهاي سبدي نشانگر موارديست كه مشتري تمايل به خريد آنها دارند. اين اطلاعات مي تواند به بهبود موجودي، استراتژي طراحي، آرايش فروشگاه و تبليغات منجر گردد.
- مدل پيش بيني: فرايندي كه الگوهاي كشف شــده از بانك داده را مي گيرد و آنها را براي پيش بيني آينده به كار مي برد.
مانند پيش بيني فروش در خرده فروشي، الگوهاي كشف شده براي فروش به آنها كمك مي كند تا تصميماتي را در رابطه با موجودي اتخاذ كنند.
1-6 روشهای داده کاوی
خود روشهای دادهکاوی به سه دسته کلی تقسيم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی. در ادامه هر يک از اين روشها را بطور کلی معرفی مینماييم.
1-6-1 خوشهبندی
فرآيند خوشهبندی سعی دارد که يک مجموعه داده را به چندين خوشه تقسيم نمايد بطوريکه دادههای قرار گرفته در يک خوشه با يکديگر شبيه بوده و با دادههای خوشههای ديگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غيره عمل خوشهبندی را انجام میدهند. مهمترين روشهای خوشهبندی در زير معرفی شدهاند:
- روشهای تقسيمبندی: روشهای خوشهبندی که بروش تقسيم بندی عمل میکنند، دادههای موجود در يک مجموعه داده را به k خوشه تقسيم میکنند، بطوريکه هر خوشه دو خصوصيت زير را داراست:
- هر خوشه يا گروه حداقل شامل يک داده میباشد.
- هر داده موجود در مجموعه داده دقيقا به يک گروه يا خوشه تعلق دارد.
معيار اصلی در چنين مجموعه دادههايی ميزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حاليکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم میتواند بصورت پويا تعيين گردد و هم اينکه قبل از شروع الگوريتم خوشهبندی مقدار آن مشخص گردد.
- روشهای سلسله مراتبی: روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسيم میگردند. روشهای سلسله مراتبی bottom-up به اين صورت عمل میکنند که در شروع هر کدام از دادهها را در يک خوشه جداگانه قرار میدهد و در طول اجرا سعی میکند تا خوشههايی نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زمانی که يا تنها يک خوشه داشته باشيم و يا اينکه شرط خاتمه برقرار گردد، ادامه میيابد. روشهای top-down دقيقا بطريقه عکس عمل میکنند، به اين طريق که ابتدا تمام دادهها را در يک خوشه قرار میدهد و در هر تکرار از الگوريتم، هر خوشه به خوشههای کوچکتر شکسته میشود و اينکار تا زمانی ادامه میيابد که يا هر کدام از خوشهها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر يا خوشه میباشد.
- روشهای مبتنی بر چگالی: اکثر روشهای خوشهبندی که بروش تقسيمبندی عمل میکنند معمولا از تابع فاصله بعنوان تابع معيار خود بهره میبرند. استفاده از چنين معياری باعث میگردد که الگوريتم خوشهبندی تنها قادر به ايجاد خوشههايی با اشکال منظم باشد. در صورتيکه اگر خوشههای واقعی در دادهها دارای اشکال غيرمنظمی باشند، اين الگوريتمها در خوشهبندی آنها با مشکل مواجه میگردند. برای حل اينگونه مشکلات يکسری از روشها برای خوشهبندی پيشنهاد گرديدهاند که عمل خوشهبندی را بر مبنای چگالی دادهها انجام میدهند. ايده اصلی در اين روشها بر اين اساس است که خوشهها تا زمانی که دادههای قرار گرفته همسايگی خوشهها از حد معينی بيشتر باشد، رشد میکنند و بزرگ میشوند. چنين روشهايی قادرند خوشههايی با شکلهای نامنظم نيز ايجاد نمايند.
1-6-2- کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری يا المانهايی در يک مجموعه داده میپردازد که معمولا با يکديگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با يکديگر ارتباط دارد. بطور کلی هر قاعده يا rule که از اين مجموعه داده بدست میآيد، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بيفتد، با احتمال بالايی الگوی Y نيز اتفاق خواهد افتاد.
1-6-3- طبقهبندی
فرايند طبقهبندی در واقع نوعی يادگيری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعهای از دادهها که در آن هر داده شامل تعدادی خصوصيت دارای مقدار و يک خصوصيت بنام خصوصيت کلاس میباشد، برای ايجاد يک مدل داده بکار میروند که اين مدل داده در واقع توصيف کننده مفهوم و خصوصيات مجموعه دادههايی است که اين مدل از روی آنها ايجاد شده است. مرحله دوم فرآيند طبقهبندی اعمال يا بکارگيری مدل داده ايجاد شده بر روی دادههايی است که شامل تمام خصوصيات دادههايی که برای ايجاد مدل داده بکار گرفته شدهاند، میباشد، بجز خصوصيت کلاس اين مقادير که هدف از عمل طبقهبندی نيز تخمين مقدار اين خصوصيت میباشد.
الگوريتمها و روشهای مختلفی برای طبقهبندی تاکنون پيشنهاد شدهاند که برای مثال میتوان از روشهای طبقهبندی با استفاده از درخت تصميم، طبقهبندی بيزين، SVM، طبقهبندی با استفاده از شبکههای عصبی، طبقهبندی مبتنی بر قواعد و … نام برد
1-6-3-1- طبقهبندی مبتنی بر قواعد
در اين قسمت قصد داريم نگاهی به بحث طبقهبندی مبتنی بر قواعد داشته باشيم. دراين روش مدل ايجاد شده از روی دادهها بصورت مجموعهای از قواعد میباشد. میتوان گفت که هر قاعده بصورت يک قاعده IF P THEN C میباشد که در آن P مجموعهای از شرايط بوده و C نيز مشخص کننده برچسب يک کلاس يا طبقه خاص میباشد. يک قاعده بدست آمده از مجموعه دادههای آموزشی با استفاده از دو معيار coverage و accuracy میتواند ارزيابی گردد. اين دو معيار بصورت زير تعريف میگردند:
(1-1)
(1-2)
که در تعاريف مذکور تعداد دادههايی در مجموعه داده D است که توسط قاعده پوشش داده میشوند. تعداد دادههايی است که توسط قاعده بدرستی طبقهبندی شدهاند. تعداد دادههای موجود در D میباشد.
نکته مهمی بايد اينجا به آن اشاره کرد اين بحث است که چگونه دادهها توسط اين قواعد طبقهبندی میگردند. همانطور که اشاره گرديد اين قواعد دارای يک قسمت شرط (P) و يک قسمت C هستند. P يک الگو بصورت ( ) میباشد که هر کدام از ها بيان کننده يک محدوديت برای يکی از خصوصيات هستند. اگر خصوصيات دادهای محدوديتهای مذکور قاعدهای را برآورده سازد آنگاه کلاس يا طبقهبند آن داده، کلاس يا طبقهای است که آن قاعده (C) بيان میکند. اما مساله مهمی که اينجا پيش میآيد، اين مساله است که اگر يک داده در قسمت شرط (P) بيش از يک قاعده صدق کند، آنگاه کدام قاعده را بايد انتخاب کرد. بسته به استراتژیهای مختلف اين مشکل جوابهای مختلفی میتواند داشته باشد. دو نمونه از مهمترين استراتژیهايی که معمولا برای حل اين مشکل بکار میروند، استراتژیهای size ordering و rule ordering میباشند.
در استراتژی size ordering چنانچه يک داده در بيش از يک قاعده صدق کند، قاعدهای برای طبقهبندی داده انتخاب میشود که خصوصيات بيشتری را برای مشخص نمودن کلاس داده تست کرده باشد. در استراتژی rule ordering از پيش قواعد اولويت دهی میشوند و هنگام طبقهبندی قاعده با اولويت بالاتر، مشخص کننده کلاس داده خواهد بود. اولويت دهی به قواعد هم به طریق مختلفی ممکن است انجام گردد. برای مثال ممکن است که ابتدا کلاسها اولويتدهی شوند و قواعد مربوط به هر کلاس نيز با تاثير پذيری از اين اولويت دهی، اولويت بگيرند. اولويت کلاسها نيز ممکن است بر اساس اهميت کلاس يا تعداد دادههای متعلق به آن کلاس و يا … مشخص گردد. استراتژیهای ديگری نيز در اين زمينه وجود دارند که ما در اينجا درباره آنها صحبت نمیکنيم. مساله ديگری که ممکن پيش بيايد اين است که يک داده با هيچکدام از قواعد همخوانی نداشته باشد. برای اين مساله هم میتوان راهحلهايی ارائه نمود. معمولترين راهحل اين است که چنانچه دادهای با هيچ يک از قواعد همخوانی نداشت، کلاسی بعنوان کلاس آن داده انتخاب گردد که بيشترين تعداد داده در بين دادهها به آن کلاس تعلق دارد.
مورد ديگری هم که اينجا قابل ذکر است اين مطلب است که قواعدی که برای طبقهبندی استفاده میشوند، چگونه ايجاد میگردند. البته ما نمیخواهيم در اينجا وارد جزئيات مربوط به استخراج قواعد از دادهها آموزشی شويم. برای استخراج قواعد از مجموعه دادههای آموزشی معمولا از دستهای از الگوريتمها بنام الگوريتمهای SCA (sequential covering algorithm) استفاده میگردد که اين الگوريتمها در هر مرحله يک قاعده را از دادههای آموزشی يادگرفته و دادههايی را که از آن قاعده پيروی میکنند را از مجموعه دادههای آموزشی خود حذف میکنند و با دادههای باقيمانده، کار خود را ادامه میدهند. از نمونه الگوريتمهای معروف SCA میتوان به AQ، CN2 و RIPPER اشاره نمود. البته قابل ذکر است که برای کشف قواعد میتوان از روشهای ايجاد درخت تصميم و يا کشف قواعد وابستگی نيز استفاده نمود. در درخت تصميم هر مسير از ريشه تا يک برگ را میتوان بعنوان قسمت P قاعده در نظر گرفت و کلاسی که برگ مشخص میکند، قسمت C خواهد بود.
[thrive_leads id='1265']