برای پیاده سازی الگوریتم های یادگیری ماشین و داده کاوی در هدوپ می توانید از کتابخانه های موجود در Mahout استفاده کنید.
زبان Pig هم برای انجام پردازش های مبتنی بر Extract Transform load مناسب هست
اسپارک mllib پایتون، جاوا، R و اسکالا را پشتیبانی می کند و اکثر الگوریتم های مطرح در آن وجود دارد. البته از لحاظ تعداد الگوریتم scikit learn بلوغ بیشتری دارد ولی از لحاظ پردازش توزیع شده و سرعت، mllib بسیار کاراتر هست!
دوپ و یک تعدادی از نرم افزارهای اکوسیستم (hive, pig, hbase, sqoop, etc.)
یکی از بهترین سایت ها که همه مقالات و کتاب ها رو بدون محدودیت برا دانلود داره.. http://paperhub.ir
[thrive_leads id='1265']