متن کاوی چیست؟

متن کاوی چیست؟

علیرضا وظیفه دوست – اشکان بیاتی – سید علی سیدی کیانور

چکیده: تقاضا برای اطلاعات فرابری شده از منابع متنی به طور فزاینده ای در حال افزایش است. ذات غیرساخت یافته ی این متون، اعمال همان روشهایی را که ما در مورد دیتابیسها بکار می بریم، غیرممکن می سازد.در این مقاله تلاش ما بر این است تا کاربردهای مهمی را که از پردازش متون مورد انتظار است، بررسی کنیم. به اینگونه پردازشها که روی متون اعمال می شود، متن-کاوی می گوییم[1] و سعی خواهیم کرد تا جنبه های مختلف آنرا کشف کنیم.

1 معرفی

اطلاعات باعث قدرت است و دانش قدرتمندتر. اکنون بیشتر از 80 درصد از دانش ما به صورت متن، مستندات و دیگر صورتهای رسانه ای نظیر ویدیو و صدا نگهداری می شود. اگر از منظر علوم کامپیوتری به این مستندات نگاه کنیم همه ی آنها به طبیعتی غیرساختیافته وابسته اند. یک فرد برای دریافت دانش از اطلاعات یک متن، بایستی ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معانی و مفاهیمی در آن موجود است، چه ارتباطی میان مفاهیم وجود دارد و از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال در این عصر تکنولوژی، ما معتقدیم که هر چیزی باید بتواند اتوماتیک انجام شود حتی اگر این کار “درک معنی متن” باشد. این تنها یکی از نامهایی است که شما برای این نوع از پردازش می یابید. “متن-کاوی”، “کاوش داده های متنی”[2] و نیز نام معروف “کشف دانش در متن”[3] یا KDT، از نامهای بیشتر مورد قبول دراین زمینه هستند.

متن-کاوی، در تکنولوژی های متفاوتی ریشه دارد و از اینرو این تعجب انگیز نیست که تعاریف زیادی نیز برای آن وجود دارد. افرادی که دارای پیشینه کار در زمینه ی داده-کاوی[4] بودند می خواستند که همان مفاهیم و روشهای موجود در داده-کاوی را بر متون اعمال کنند و تعاریف شان نیز منطبق بر همین زمینه بود. اما کسانی که از جامعه ی زبان دانان محاسباتی[5] آمده بودند، قصد داشتند که این توانایی را به کامپیوتر بدهند که بتوانند متن را بفهمند و این غایت چیزی است که از متن-کاوی مورد انتظار است. در باره ی گستره ی تعاریف موجود از متن-کاوی در بخش 2 بیشتر خواهیم دید. بخش 3 اساساً به مبحث کاربردهای متن-کاوی می پردازد. بخش 4 روشهای کلی متن-کاوی را مورد کنکاش قرار می دهد. درنهایت در بخش آخرما یک نتیجه گیری کلی ارائه خواهیم کرد.

2 تعاریف

در دنیای کنونی این کمبود اطلاعات نیست که مسئله است بلکه کمبود دانشی است که از این اطلاعات می توان حاصل کرد. میلیونها صفحه ی وب، میلیونها کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت تنها چند دست از این منابع اطلاعاتی هستند. اما نمی توان به طور مشخص منبعی از دانش را در این بین معرفی کرد. دانش خلاصه ی اطلاعات است و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات.

داده کاوی، یک روش بسیار کاراست برای کشف اطلاعات از داده های ساختیافته ای که در جداول نگهداری می شوند. داده کاوی، الگوها را از تراکنش ها[6]، استخراج می کند، داده را گروه بندی می کند و نیز آنرا دسته بندی می کند. بوسیله ی داده کاوی می توانیم پی به وجود روابطی میان اقلام داده ای که دیتابیس را پر کرده اند ببریم. در عین حال ما با داده کاوی مشکلی داریم و آن عدم وجود عامیت در کاربرد آن است. تعداد منابع داده ای ساخت یافته ی ما که به حدکافی بزرگ نیز باشند که مفاهیم داده کاوی قابل اعمال بر آنها باشد، چندان زیاد نیستند. در واقع بیشتر دانش ما اگر به صورت غیر دیجیتال نباشند، کاملاً غیر ساختیاقته اند. کتابخانه های دیجیتال، اخبار، کتابهای الکترونیکی، بسیاری از مدارک مالی، مقالات علمی و تقریباً هر چیزی که شما می توانید در داخل وب بیابید، ساختیاقته نیستند. در نتیجه ما نمی توانیم آموزه های داده کاوی را در مورد آنها به طور مستقیم استفاده کنیم.

با این حال، سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیر ساختیافته گسترده شده در جهان وجود دارد. بازیابی اطلاعات[7]، استخراج اطلاعات[8] و کشف دانش در متن این سه روش برخورد با این مسئله هستند.

بازیابی اطلاعات اصولاً مرتبط است با بازیابی مستندات و مدارک. کار معمول در IR اینست که بسته به نیاز مطرح شده از سوی کاربر، مرتبط ترین متون و مستندات و یا در واقع “بقچه ی کلمه” را ازمیان دیگر مستندات یک مجموعه بیرون بکشد. این یافتن دانش نیست بلکه تنها آن بقچه ای از کلمات را که به نظرش مرتبط تر به نیاز اطلاعاتی جستجوگر است را به او تحویل می دهد. این روش به واقع هیچ دانشی و حتی هیچ اطلاعاتی را برایمان به ارمغان نمی آورد.

در نظر بگیرید که مؤسسه ای بسیار موفق دارید و از اینرو تعداد زیادی ایمیل در روز دریافت می کنید. شما می خواهید سابقه ی این ایمیل ها را ثبت کنید. چه کسانی آنرا فرستاده اند، تاریح فرستادن آن چه روزی بوده است، عنوان و متن آنچه بوده است و نظایر آن. این با بیرون کشیدن این اطلاعات از تک تک ایمیل ها و پرکردن یک دیتابیس از این اطلاعات میسر است. این ممکن است با تعریف یا کشف یک قالب از داده هایی بدست آید که با آن سروکاردارید. مثلا می توان برنامه ای داشت که به طور اتوماتیک به دنبال کلمه ی title در سند بگردد و آنچه را که بعداز آن آمده به عنوان یک فیلد در دیتابیس پرکند. هرچند یافتن این قالب در داده های غیر ساختیافته ی دیگر، ممکن است به هیچ وجه ساده نباشد. اما زمانی که شما این کار را به پایان بردید، با داده های کاملاً ساختیافته ای مواجه هستید که از دل ایمیل ها بیرون کشیده شده است. اما از سویی دیگر، این تنها اطلاعات است که هنوز شما دارید؛ به این معنی که هیچ چیز جدیدی از آنچه که دارید کشف نشده است و همان را که قبلاً می دانستید، هنوز هم می دانید.

دو مفهوم[9]A و B را درنظر بگیرید که از مجموعه متون، استحصال شده اند. همچنین تصورکنید که شما ارتباطی را نیز میان این دو مفهوم یافته اید. مثلا اینکه “مناطق بارانی” و “کشت برنج” دارای رابط ای به این صورتند که کشت برنج به مناطق بارانی نیاز دارد. ( A->B). به علاوه فرض کنید که مفهوم B نیز با مفهوم C، به همین شکل دارای ارتباط است؛ مثلاً “مناطق شمال کشور” و “مناطق بارانی” این رابطه را به هم دارند که مناطق شمال کشور “هستند” منطقه ی بارانی(C ISA A). آنچه ما تاکنون داریم تنها اطلاعات است که استخراج شده است، اما سیستم می تواندکمی باهوش تر باشد و بتواند بادرک این دو گزاره نتیجه دهد که گزاره ی سومی نیز قابل طرح است به این صورت که “مناطق شمال کشور” قابل “کشت برنج” است. این مثال نشان می دهد که کشف دانش به چه می ماند. تاکید در این مثال همانطور که می بینید بر نو بودن آن چیزی است که بدست آمده است. هرچند افرادی چون [13]، معتقد بر تفاوت اندک تری در IE[10] و KDT[11]، هستند. آنها بر این باورند که یافته های نسبتاً جدید نیز قابل پذیرشند به عنوان متن کاوی. نظیر این یافته های دسته بندی متون، خلاصه سازی متون و شبیه آن است. بسیاری از مردم به درستی بر این باورند که IE، می تواند به عنوان یک فاز پیش پردازش در متن کاوی بکار برود[11].

3 کاربردهای متن-کاوی

همانطور که می بینید تعاریف گسترده ای از متن-کاوی در دست است، درنتیجه این عجیب نیست که در باره ی کاربردهای متن کاوی نیز عقاید گوناگونی وجود داشته باشد. از اینرو ما تلاش می کنیم که تعدادی از کاربردهای مورد قبول از این روند را بررسی کنیم و سعی در تطابق این کاربردها با تعاریف قبلی نداشته باشیم.

این موارد از [7] ، ذکر می شود و کمی نیز تصحیح شده است.

جستجو وبازیابی

گروه بندی[12] ( دسته بندی بدون نظارت[13]) و طبقه بندی[14] (دسته بندی بانظارت)

خلاصه سازی

استخراج روابط

یافتن و تحلیل ترند[15] ها

برچسب زدن نحوی[16]

ساخت اتوماتیک آنتولوژی[17] و تزاروس[18]

….

همانطور که شما می بیند بعضی از عناوین مشترک بین زمینه هایی چون بازیابی اطلاعات، هوش مصنوعی و نیز پردازش زبانهای طبیعی است. من در اینجا می خواهم که به طور مختصر به هر کاربرد بپردازم.

3.1 جستجو و بازیابی

روشهای جدیدی در رابطه با جستجو وبازیابی اطلاعات با درنظر گرفتن متن-کاوی، قابل تصور است. همانطور که قبلاً گفته شد، بازیابی اطلاعات دارای این هدف است که از میان مجموعه ای از مدارک و متون، آنهایی را که مرتبط ترند به نیاز اطلاعاتی کاربر، جدا کنند و به کاربر نشان دهند. بنابراین همیشه شرایطی هست که کاربر نتواند به نیاز اطلاعاتی خود، حتی از میان نتایج دریافت شده، برسد. ممکن است در میان 100 مدرک نیاز به مطالعه باشد تا کاربر آنچه را که می خواهد بدست آورد. در بسیاری از شرایط داشتن سیستمی که بتواند جواب دقیق را برگرداند در بسیاری از موارد ترجیح بیشتری دارد. این نوع از سیستمهای IR، به سیستمهای پاسخگو به پرسش[19]، معروفند.

اگرچه این نوع از سیستمهای بازیابی اطلاعات بر اساس استفاده از گستره ای از تکنولوژی ها مانند NLP و یادگیری ماشین استوار است اما درنهایت آنچه در این سیستمها، نقش اصلی را داراست، یک پایگاه دانش است که از طریق روشهای مبتنی بر NLP و یا روشهای آماری بر روی مدارک موجود در مجموعه ساخته شده است. در استخراج این روابط، می توان از متن کاوی استفاده کرد. استخراج چنین روابطی در واقع یکی از کاربردهای متن کاوی است.

3.2 گروه بندی و طبقه بندی داده

یکی از مواردی که می تواند به کاربر در یافتن سریعتر اطلاعات مورد نظرش کمک کند، دسته بندی اطلاعات موجود است. این دسته بندی به کاربر یک نگاه کلی از آنچه در مجموعه متون موجود است می دهد. در ساختن این دسته بندی دو روش کلی وجود دارد.

در روش اول شما کلاسهای از پیش تعریف شده ای از مفاهیم دارید و تلاش می کنید که سیستمی داشته باشید که مستندات و مدارک جدید را به یکی از این کلاسها، نگاشت کند. این کار درواقع به طبقه بندی داده ها[20] ، معروف است. در سوی دیگر، گروه بندی[21] داده ها، ساختن این کلاسها به طور اتوماتیک است. در واقع با گروه بندی مدارک، قصد بر این است که مشخص شود تمرکز مفاهیم در مجموعه ی متون، حول چه چیزهایی است. در واقع در اینجا ما کلاس از پیش تعریف شده ای نداریم. این دو در واقع مفاهیمی هستند که از داده کاوی رایج در دیتابیسها، به قرض گرفته شده اند.

3.3 خلاصه سازی

منظور ما از خلاصه سازی، روند ساختن مجموعه ای مفاهیم پایه ای از متن است تنها در چند خط. در این نوع از متن کاوی به نظر می رسد که اطلاعات جدیدی از متن به دست ندهد به این دلیل که خود نویسنده احتمالاً می دانسته است که چه چیزی می خواسته است بگوید و خلاصه ی نوشته های او، اطلاع جدیدی را اضافه نمی کند. گرچه این کار می تواند بررسی محتویات مستندات را برای کاربران ساده تر کند و آنهارا در مسیر رسیدن به آنچه نیاز دارند، سرعت دهد.

3.4 روابط میان مفاهیم

از جمله واقعیتهایی که می توان از یک مجموعه متون دریافت، ارتباط و وابستگی بعضی مفاهیم است با مفاهیم دیگر. این واقعیات به طور مثال می تواند بگوید که پدیدار شدن بعضی کلمات ممکن است که وابسته باشد به ظاهر شدن بعضی دیگر از کلمات. منظور این است که هرگاه شما مجموعه ی اول کلمات را ببینید، ما می توانیم انتظار داشته باشیم که مجموعه ی دوم لغات را نیز ببینیم. این مفهوم نیز از داده کاوی در دیتابیس به امانت گرفته شده است. ما در این مورد در ادامه بیشتر صحبت خواهیم کرد.

3.5 یافتن و تحلیل ترند ها

فرض کنید که شما مدیر یک کمپانی تجاری هستید. مشخصاً شما بایستی همواره چشمی بر فعالیتهای رقیبانتان داشته باشید. این می تواند هر نوع اطلاعاتی باشد که شما از اخبار، معاملات بورس و یا از مستندات تولید شده توسط همان کمپانی رقیب گرفته اید.

اگرچه در حال حاضر که اطلاعات به طور فزآینده ای در حال افزایش است، مدیریت تمامی این منابع داده ای قطعاً تنها به کمک چشمانتان ممکن نیست. متن-کاوی به شما این اجازه را می دهد که به طور اتوماتیک ترندها و تغییرات جدید را بیابید. در واقع آنچه اصولاً باید از متن کاوی انتظار برود اینست که به شما بگوید چه اخباری در میان گستره ای از اخبار به آنچه می خواهید مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینه ی کاری شما صورت می گیرد و علایق و ترندهای فعلی چگونه است و با چه روندی تغییر می کند. با استفاده از این اطلاعات، مدیر تنها از اطلاعات کشف شده برای بررسی وضعیت رقیب می تواند سود جوید.

3.6 برچسب زدن نحوی[22](POS)

اگرچه تعداد زیادی معتقد به این نیستند که اینکار جزئی از متن-کاوی است ولی در [4]، برای مثال سیستمی به نام GATE در دانشگاه شفیلد، در یک کتابخانه ی دیجیتال به این قصد جاگذاری شده است. GATE شامل ابزاراتی است برای برچسب زدن بر جملات. برای مثال این سیستم می تواند در داخل یک متن، نام موقعیتهای جغرافیایی، نام اشخاص و چیزهایی شبیه اینرا بیابد. به این خاطر این سیستم بیشتر شامل استخراج اطلاعات است تا استخراج دانش. در عین حال، POS اغلب نقش بزرگی را در پردازش زبانهای طبیعی بازی می کند. در حقیقت این اولین قدم در پردازش زبان طبیعی است و همانطور که خواهیم دید پردازش زبان طبیعی یکی از پایه های متن-کاوی است.

3.7 ایجاد تزاروس و آنتولوژی به صورت اتوماتیک

می توان تزاروس و آنتولوژی را به عنوان یک ابزار مناسب برای نمایش دانش استخراج شده از یک مجموعه متن دانست. تزاروس، مجموعه ای است از لغات به اضافه ی تعاریفشان و رابطه ی میان آنها. این روابط معمولاً به کمک دست از دل مجموعه ی متون استخراج می شود.ما می توانیم تزاروسهای خاص یا همه منظوره داشته باشیم. رابطه ی میان این کلمات می تواند چیزهای شبیه “کلی تر”، “خاص تر” و “مرتبط” یا نظیر آن باشد. اگر ما تزاروسی داشته باشیم که در آن تمام ارتباطات میان لغات مشخص شده باشد، می توانیم آنرا آنتولوژی این لغات بنامیم. هر دوی تزاروس و آنتولوژی کاملاً مفید هستند چون به ما دنیای لغات و مفاهیمی را نشان می دهند که در مجموعه ی متون ما وجود دارد. اگر شما یک موتور جستجو را در نظر بگیرید، یک تزاروس، می تواند مجموعه لغاتی باشد که ما می توانیم در حین جستجوبکار بریم.

تزاروس ها اکنون می توانند تنها بوسیله ی دست ساخته شوند و به همین خاطر ساخت آنها بسیار سخت و وقت گیر است. فردی که می خواهد یک تزاروس بسازد بایستی که ارتباطات میان تمام لغات را بیابد. این بسیار مورد ترجیح است اگر ما می توانستیم آنهارا اتوماتیک بسازیم.[17]

اگرچه این زمینه ای است که ما نمی توانیم هیچ مرزی بر آن قائل شویم. هدف نهایی اینست که هر ذره از دانشی که توسط بشر قابل درک است بوسیله ی کامپیوتر نیز درک شود.

4 فرآیند متن کاوی

متن کاوی فرآیندی است که شامل فیلدهای تکنولوژیکی فراوانی است. بازیابی اطلاعات، داده کاوی و هوش مصنوعی و زبانشناسی محاسباتی همه فیلدهایی هستند که در این زمینه، نقشی را دارا هستند. اما به طور کلی دو فاز اصلی در فرآیند متن کاوی وجود دارد [16].

اولین فاز پیش پردازش مستندات است. خروجی نخستین فاز می تواند دو قالب مختلف داشته باشد؛ مبتنی برسند[23] و مبتنی بر مفهوم[24]. در اولین فرمت نمایش، آنچه برای ما مهم است، نحوه ی نمایش بهتری است برای مستندات. این میتواند، تبدیل آنها به یک فرمت میانی و نیمه ساختیافته[25]، باشد یا بکار بردن یک ایندکس بر روی آن یا هر نوع نمایش دیگری که کارکردن با مستند را کاراتر می کند. در این حال هر موجودیت[26] در این نمایش در نهایت باز هم یک مستند خواهد بود. در نوع دوم بهبود بخشی به نمایش مستند، مفاهیم و معانی موجود در سند و نیز ارتباط میان آنها و هرنوع اطلاعات مفهومی دیگری که قابل استخراج است، از متن استخراج می شود. دراین نوع نمایش دیگر با مستندات به عنوان یک موجودیت مواجه نیستیم بلکه با مفاهیمی روبروییم که از این مستندات استخراج شده اند.

قدم بعدی استخراج دانش است از این فرمهای میانی نمایش مستندات. بسته به نحوه ی نمایش یک مستند، روال استخراج دانش برای یک مستند متفاوت است. نمایش مبتنی بر مستند، برای گروه بندی، طبقه بندی، تصویر گری[27] و نظایر آن استفاده می شود، درحالیکه نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم، ساختن اتوماتیک تزاروس و آنتولوژی و نظایر آن بکار می رود.

4.1 روشهای متن کاوی

تعداد زیادی روش در فاز استخراج دانش وجود دارد. درعین حال تمام این روشهارا شاید بتوان به دو دسته اصلی تقسیم کرد. این دو دسته اصلی، روشهای مبتنی بر کارایی و روشهای مبتنی بر دانش هستند. در روش اولی، طراحان نگران کارایی سیستم هستند و طوری سیستم را طراحی می کنند که بهترین کارایی و سرعت را داشته باشد. روشهای رایجتر در این نوع نگرش، روشهای آماری و نیز شبکه های عصبی هستند.

روشهای آماری بر پایه هر نوع اطلاعات آماری است که از متون قابل استخراج است. مواردی چون تکرار لغات به تنهایی، تکرار لغات با هم و چیزهایی شبیه آن. به عنوان یک مثال دیگر، این مثال را از [1]، ببینید که Martin Rajman، در آن نشان می دهد چگونه ایده های موجود در داده کاوی در دیتابیس، قابل اعمال است بر سیستمهای متن کاوی. این مثال از یافتن روابط، نمونه بسیار خوبی است از متن کاوی بر مبنای مستند[28].

4.2 یافتن روابط[29]

اینچنین درنظر بگیرید که مجموعه ای از کلمات مثل و نیز مجموعه ای از مستندات ایندکس شده مثل وجود دارد. در اینجا هر، با یک زیر مجموعه از A در ارتباط است و این ارتباط به شکل نشان داده می شود.

اکنون فرض کنید که یک مجموعه از کلمات کلیدی باشند. مجموعه ی تمام مستندات t در T، به صورتی که باشد، مجموعه ی پوششی برای W خوانده می شودو به شکل [W].، نشان داده می شود.

هر زوج (W,W) که مجموعه ای از لغات است و نیز، یک قانون رابطه[30] خوانده می شود و به شکل. نمایش داده می شود.

با داشتن یک قانون رابطه مثل خواهیم داشت:

– میزان پشتیبانی[31] از رابطه خوانده می شود با توجه به مجموعه ی T.

– میزان اطمینان[32] از قانون R خوانده می شود با توجه به مجموعه ی T.

بوسیله ی ، منظور ما احتمالی است که یک متن کلمه ی کلیدی w را دارا باشد اگر هم اکنون کلمات مجموعه W را داراست.

برای اینکه قانونی این دو شرط پشتیبانی و پوشش را برآورده سازد باید مقدار این دو پارامتر در مورد آن قانون از میزانی خاص بیشتر باشد. این میزان به نوع مجموعه ی متون وابسته است.

در سوی دیگر روشهای مبتنی بردانش قرار دارند که از زاویه دید دیگری به این مسئله نگاه می کنند. آنها سعی می کنند اولاً تا حد ممکن مفاهیم موجود را از داخل مجموعه ی متون استخراج کنند و ثانیاً بین این مفاهیم روابطی برقرار کنند. استفاده از این روش بسیار وابسته به NLP است. در حقیقت این هدفی است که NLP نیز آنرا دنبال می کند و آن درک متن است. سیستمهایی که از این روشها استفاده می کنند درحال حاضر زیاد نیستند ولی DR-LINK[16] از دانشگاه Syracus یکی از آنهاست.

5 نتیجه گیری و کارهای بعدی

این یک مرور کلی بود بر کاربردهای اصلی و روشهایی که در متن-کاوی بکار می رود. هرچند طیف وسیعی از کاربردها برای این تکنولوژی قابل تصور است. درعین حال این تکنولوژی یک زمینه ی جوان و درحال رشد است که به ما کمک می کند از دانش موجود در متون غیرساختیافته بهره ببریم.

کارهای بعدی حول روشهایی خواهد بود که از NLP استفاده می کنند. در این زمینه همچنین ایده ای هست که در آن از Human Plausible Reasoning استفاده خواهد شد. این کاملاً طبیعی است که از چنین چارچوب منطقی در متن کاوی استفاده کنیم وقتی که از درک متن استفاده می کنیم.

6 منابع

[1]M. A. Hearst. Untangling text data mining. In Proceedings of the ACL’99: the 37th Annual Meeting of the Association for Computational Linguistics. University of Maryland, June 20-26 1999

[2]Claire Grover, Harry Halpin, Ewan Klein, Jochen L. Leidner, Stephen Potter, Sebastian Riedel, Sally Scrutchin, and Richard Tobin. A framework for text mining services. In Proceedings of the Third UK e-Science Programme All Hands Meeting (AHM 2004), 2004.

[3]Sugato Basu, KDD Evaluating! the Novelty of TextMined RulesUsing Lexical Knowledge

[4]Witten, I. H., Don, K. J., Dewsnip, M. and Tablan, V. (2004) “Text mining in a digital library.” International Journal on Digital Libraries 4(1), 56-59

[5]H. Karanikas and B. Theodoulidis, ‘Knowledge discovery intext and text mining software’, Technical report, UMIST – CRIM, Manchester, 2002

[6]Kodratoff Y., “Knowledge Discovery in Texts: A Definition, and Applications,” in Foundation of Intelligent Systems, Ras & Skowron (Eds.) LNAI 1609, Springer 1999

[7]M. Rajman. Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997

[8]Un Yang Nahm,Text Mining with Information Extraction, 2001. PhD Proposal, The University of Texas at Austin

[9]Marie-Laure Reinberger, Unsupervised Text Mining for Ontology Learning,in proceeding of Machine Learning for the Semantic Web ,2005

[10]Ah-Hwee Tan. Text Mining: The state of the art and the challenges. In Proceedings, PAKDD’99 Workshop on Knowledge discovery from Advanced Databases (KDAD’99), Beijing, pp. 71-76, April 1999

[11]K. McCurley and A. Tomkins. Mining and knowledge discovery from the Web. In 7th International Symposium on Parallel Architectures, Algorithms and Networks, Hong Kong, 2004

[12]Oracle Text , a white paper from oracle.

[13]Sehgal, A.K. Text Mining: The Search for Novelty in Text. Ph.D. Comprehensive Examination Report, Dept. of Computer Science, The University of Iowa, April 2004

[14]Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction

[15]M Rajman, M. and Besanon, R. 1997. Text Mining: Natural Language Techniques and Text Mining Applications. In Proceedings of the seventh IFIP 2.6 Working Conference on Database Semantics

[16]H. Zhuge et al. An Automatic Semantic Relationships Discovery Approach. The 13th International World Wide Web Conference (WWW2004), New York, USA, May 2004,

[1]Text Mining

[2]Text data Mining

[3]Knowledge Discovery in Text

[4]Data mining

[5]Computational linguistics community

[6]Transactions

[7]Information Retrieval

[8]Information Extraction

[9]Concept

[10]Information Extraction

[11]Knowledge Data mining from Text

[12]Clustering

[13]Unsupervised Classification

[14]Categorization

[15]Trend

[16]Part of Speech tagging

[17]Ontology

[18]Thesaurus

[19]Question Answering System

[20]Categorization

[21]Clustering

[22]Part of Speech Tagging

[23]Document based

[24]Concept based

[25]Semi-Structured

[26]Entity

[27]Visualization

[28]Document based

[29]Association Detection

[30]Association Rule

[31]Support

[32]Confidence

[thrive_leads id='1265']

دسترسی سریع

تماس با تجارت نوین