روش های مختلفی برای کاهش اندازه داده ها وجود دارد (Data Reduction):
- روش های استخراج ویژگی Feature Extraction
- روش های انتخاب ویژگی Feature Selection
در نوع اول، با ترکیب ویژگی ها و ایجاد مجموعه ای جدید از آن ها باعث کاهش ابعاد می شوند.(مثلا PCA)
در نوع دوم، بدون تغییر در ویژگی ها، تعدادی از آنها که مهمتر هستند انتخاب شده و بقیه حذف می شوند. مثلا Rough Set Feature Selection)
یکی از روش های تعیین اهمیت ویژگی ها PCA هست.
وقتی از این روش استفاده میکنید eigenvalue ها مشخص کننده اهمیت بردار های ویژگی متناظر هستند. هرچقدر این مقدار بزرگتر باشه اهمیت بیشتری هم داره.
در ضمن correlation داده ها میتونه در این زمینه تاثیر گذار باشه. Correlation زیاد بین ويژگی تاثیر کم اونها در کلاسبندی رو مشخص میکنه.
همینطور شما میتونید از KLDA برای Project کردن داده ها به فضای جدید استفاده کنید. مسلما در جایی که تفکیک کلاس ها بیشتر باشه اهمیت ویژگی ها نیز خودشونو نشون میدن.
فقط یک نکته دیگه این که با روش feature subset selection میتونید ویژگی های خودتونو با شبکه عصبی ارزیابی کنید. طبیعتا افزایش accuracy شبکه میتونه اهمیت ویژگی ها رو مشخص کنه. ولی این روش جایی مناسبه که بردار ویژگی شما ابعاد کمی داشته باشن.
[thrive_leads id='1265']