به نظر می رسد رده بندی که یکی از معمول ترین کارکردهای داده کاوی است، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه دربارهی دنیا، به طور مداوم رده بندی، طبقه بندی و درجه بندی می کنیم. ما موجودات زنده را به شاخه ها و گونه ها، مواد را به عناصر و حیوانات و انسان را به نژادها تقسیم می کنیم.
رده بندی شامل بررسی ویژگی های یک شی جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد. عمل رده بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگی ها که حاوی موارد از پیش دسته بندی شده هستند مشخص می گردد؛ این عمل شامل ساختن مدلی است که بتوان از آن برای رده بندی کردن داده های رده بندی نشده، استفاده نمود. اشیایی که باید رده بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده ها یا یک فایل ارائه می شوند و عمل رده بندی شامل افزودن ستون جدیدی با کد رده بندی خاصی است. مثال هایی از رده بندی با استفاده از تکنیک های توصیف شده در زیر ارائه شده است:
– رده بندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر.
– انتخاب محتویات یک صفحۀ وب برای قرار دادن در شبکۀ اینترنت.
– تعیین شماره تلفن های متصل به دستگاه های فکس.
-تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه.
رده بندی از جمله روشهایی است که در آن برای هر کدام از رکوردهای مجموعه داده مورد کاوش، یک برچسب که بیانگر حقیقتی در مسأله است، وجود دارد. این برچسب سبب میشود که هر الگوریتم ردهبندی یک الگوریتم با ناظر محسوب شود. در روشهای با ناظر، الگوریتم ابتدا در مرحله آموزشی مدل قرار میگیرد و سپس در مرحله ارزیابی، کارایی مدل یاد گرفته شده، بررسی میشود.
در الگوریتمهای ردهبندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه دادههای آموزشی و مجموعه دادههای آزمایشی تقسیم میشود. با استفاده از مجموعه دادههای آموزشی مدل ساخته میشود و از مجموعه داده آزمایشی برای اعتبارسنجی و محاسبه دقت مدل ساخته شده استفاده میشود. هر رکورد شامل یک مجموعه از ویژگیهاست. یکی از این ویژگیها، ویژگی رده نامیده میشود. شامل دو مرحله آموزش (یادگیری) و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه دادههای آموزشی به یکی از الگوریتمهای دسته بندی داده میشود تا بر اساس مقادیر سایر ویژگیها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یادگیرنده، الگورینم درخت تصمیم باشد، مدل ساخته شده یک درخت تصمیم خواهد بود. اگر الگوریتم یادگیرنده یک دستهبندی مبتنی بر قانون باشد، مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با توجه به الگوریتم یادگیرنده مورد استفاده در مرحله آموزش، مدل ساخته میشود. پس از ساخت مدل، در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه دادههای آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه دادهها را ندیدهاست، ارزیابی خواهد شد. از مجموعه دادههای آزمایشی در مرحله آموزش و ساخت مدل استفاده نمیشود.
با توجه به شکل های زیر یک مجموعه داده آموزشی و یک مجموعه آزمایشی موجود است. مجموعه دادههای آموزشی به بخش یادگیری مدل دستهبندی ارسال میشود. در ادامه مدل ساخته شده، بر اساس مجموعه دادههای آزمایشی مورد سنجش قرار میگیرد. الگوریتم ردهبندی کننده ویژگی رده هر رکورد را در مجموعه دادههای آزمایشی در فرایند پیشبینی رده مورد استفاده قرار نمیدهد.
کاربردهای ردهبندی
پزشکی
فرض کنید یک مجموعه رکورد داریم که هر رکورد مربوط به یک بیمار است. از هر بیمار هم یک سری ویژگی از جمله سن، قد، وزن، فشار خون و… را در اختیار داریم و در ضمن میدانیم نوع بیماری هر بیمار چیست. یعنی یک ویژگی رده به نام نوع بیماری داریم که دارای سه مقدار هپاتیت، دیابت و سالم بودن است. هر رکورد یکی از مقادیر ویژگی رده یعنی یکی از موارد هپاتیت، دیابت و سالم بودن را دارد. به عنوان مثال فرض کنید مسأله شامل هزار رکورد است. سیصد بیمار دیابتی، چهارصد شخص سالم و سیصد بیمار هپاتیتی. هدف ساخت یک مدل برای دسته هپاتیت، دیابت و سالم میباشد، به گونهای که اگر یک بیمار جدیدی وارد شد، آن مدل بتواند تشخیص دهد بیمار جدید به کدام یک از این سه دسته تعلق دارد. ابتدا در مرحله آموزش بر اساس مجموعه دادههای آموزشی مدل ساخته میشود و در مرحله ارزیابی کارایی و دقت مدل تعیین خواهد شد. حال وقتی با ورود بیمار جدید، ویژگیهای بیمار شامل سن، قد، وزن، فشارخون و … به مدل داده شود، مدل رده مربوط به آن بیمار را تشخیص میدهد. بدیهی است که تشخیص بر اساس ردههایی است که مدل در مرحله آموزش با آنها روبهرو شدهاست. بنابراین امکان تشخیص رده جدید در کاربرد ردهبندی وجود نخواهد داشت.
بازاریابی مستقیم
هدف، کاهش هزینه پست از طریق پیدا کردن مصرفکنندههایی است که احتمال خرید یک گوشی تلفن همراه جدید توسط آنها نسبت به سایرین بیشتر است. یعنی به احتمال بالاتری گوشی جدید مورد نظر را میخرند. در واقع هدف این است که بازاریابی را برای کسانی که ارزش آن را دارند انجام دهیم. برای این کار از اطلاعات مربوط به گوشیهای تلفن همراه که قبلا ساخته استفاده میکنیم. اطلاعات مختلف درباره همه مشتریانی که قبلا یک گوشی را خریداری کرده یا نکردهاند به همراه اطلاعات سبک زندگی آنها را (به عنوان مثال نوع کار آنها، محل زندگی آنها، میزان درآمد آنها و…) جمعآوری میکنیم. بر اساس اطلاعاتی که درباره مشخصات گوشیهای تلفن همراه گذشته و افرادی که آنها را خریداری کرده یا نکردهاند، یک مجموعه رکورد ایجاد میکنیم. در حالت کلی دو نوع رکورد متفاوت داریم، که تعدادی با عنوان خریدار و تعدادی هم با عنوان غیر خریدار برچسب خوردهاند. هر رکورد شامل مشخصات یک گوشی، مشخصات فردی که آنها را خریداری کرده و یک رده خریدار و یا شامل مشخصات یک گوشی، مشخصات فردی که آن را خریداری نکرده و یک رده غیر خریدار میباشد. این مجموعه رکوردها به دو قسمت مجموعه رکوردهای آموزشی و آزمایشی شکسته میشوند. بر اساس مجموعه دادههای آموزشی برای ویژگیهای دسته خریدار و غیر خریدار مدل نهایی ساخته میشود. حال برای اینکه بفهمیم بستههای تبلیغاتی را برای چه افرادی بفرستیم مشخصات هر فرد و مشخصات گوشی تلفن همراه جدید را به مدل یادگرفته شده نشان میدهیم. مدل به ما نشان میدهد که آیا این فرد گوشی جدید را میخرد یا خیر. در نهایت بر اساس این مدل اقدامات خود را در فرایند بازاریابی گوشی تلفن همراه جدید پایهریزی مینماییم.
تشخیص کلاهبرداری
هدف، پیشبینی موارد کلاهبرداری در تراکنشهای کارتهای اعتباری است. (لبته تشخیص کلاهبرداری لزوما منحصر به تراکنشهای کارتهای اعتباری نبوده و قابل طرح در بسیاری از کاربردهای مالی دیگر نظیر بیمه و بورس نیز میباشد.) روش کار به این صورت است که در گذشته نیز تعداد زیادی تراکنش اتفاق افتاده و هر کدام از آنها بررسی شدهاند و به عنوان یک تراکنش کلاهبرداری یا یک تراکنش عادی برچسب خوردهاند. تمام این تراکنشها در سیستم ثبت شدهاند. حال از اطلاعات مربوط به این تراکنشها استفاده نموده و یک مجموعه رکورد جمعآوری میکنیم. در هر رکورد اطلاعات صاحب حساب و کارهایی که در حال انجام آنها میباشد را به عنوان ویژگی در نظر میگیریم. به علاوه یک ویژگی دسته هم تعریف میکنیم که شامل دو مقدار کلاهبرداری یا عادی است. هر رکورد یکی از این دو مقدار را به ازای ویژگی دسته خود دارد. به عنوان مثال تعدادی از ویژگیها عبارتند از: مشتری چه موقع در حال خرید است؟ در حال خرید چه چیزی است؟ آیا هزینه را به موقع پرداخت میکند؟ و…. این مجموعه رکوردها به دو قسمت دادههای آموزشی و آزمایشی شکسته میشوند. الگوریتم یادگیرنده بر اساس مجموعه دادههای آموزش، مدلی را برای وضعیتهای کلاهبرداری و عادی میسازد. حال فرد جدیدی که وارد شد و کارت خود را وارد سیستم نمود، ویژگیهای آن به مدل داده میشود و مدل تشخیص میدهد که آیا این فرد قصد انجام یک کار کلاهبردارانه را دارد یا نیت او انجام یک تراکنش عادی است.
میزان ماندگاری یا از دست دادن مشتری
هدف پیشبینی آن است که آیا احتمال دارد که یک مشتری به سمت رقیب ما برود یا خیر؟ روش کار به این صورت است که از میان دادههای مربوط به مشتریان گذشته و حاضر یک مجموعه ویژگی استخراج میکنیم. تعدادی از این ویژگیها عبارتند از: معمولا مشتری چند وقت به چند وقت تماس میگیرد؟ با کدامیک از شعب تماس میگیرد؟ میزاد درآمد مشتری چقدر است؟ متأهل یا مجرد است؟ و…. هر کدام از این مشتریها یا به ما وفادار بودهاند و دائما با ما در تماس بودهاند یا بعد از مدتی ما را ترک کرده و به سمت رقیب ما رفتهاند. از این رو یک ویژگی دسته تعریف میکنیم که دو مقدار وفادار و بیوفا دارد. رکوردهای مربوط به هر یک از مشتریها نیز با توجه به بررسیهایی که انجام میدهیم، یکی از این دو مقدار را به عنوان ویژگی دسته میگیرد. پس یک مجموعه رکورد داریم که هر رکورد مربوط به یکی از مشتریان است که برچسب وفادار یا بیوفا گرفتهاست. این مجموعه رکورد به دو قسمت دادههای آموزشی و آزمایشی شکسته میشود. در مرحله آموزش الگوریتم بر اساس مجموعه دادههای آموزشی مدلی برای وفاداری و بیوفایی میسازد. حال ویژگیهای مربوط به مشتری جدید را به مدل میدهیم. مدل بر اساس آنها تصمیم میگیرد که آیا این فرد وفادار خواهد بود یا بیوفا.
گردآورنده: مهناز شرفخانی
[thrive_leads id='1265']
