متن کاوی :مفاهیم و روش ها

نوع مقاله : مقاله ترویجی

نویسندگان

1 دانشجوی کارشناسی ارشد مدیریت اطلاعات، دانشگاه پیام نور تنکابن، مازندران. (نویسنده مسئول)

2 استادیار گروه علم اطلاعات و دانش شناسی، دانشگاه پیام نور، تهران، ایران

چکیده

مقدمه: در عصرحاضر، حجم عظیمی از اطلاعات موجود در محیط وب، اسناد و مقالات متنی هستند. متن کاوی، روشی برای استخراج اطلاعات غیرساخت‌یافته و نیمه‌ساخت‌یافته از این حجم اطلاعات موجود در اینترنت و نیز، فرآیند استخراج دانش و الگوهای ناشناخته و غیرقابل فهم و بالقوه، از میان انبوه مجموعه‌های داده‌های متنی است.
روش‌ها: این پژوهش از نوع مطالعات کتابخانه‌ای است. با اینکه روش‌های متن‌کاوی اکثراً بر روی منابع لاتین انجام گرفته-اند، اما با جستجو در پایگاه‌های اطلاعاتی فارسی، درمی‌یابیم طی یک دهه گذشته، موضوع متن‌کاوی برای محققان ایرانی به-خصوص دانشجویان رشته‌های علوم کامپیوتر و فناوری اطلاعات، اهمیتی دوچندان پیدا کرده است؛ به طوری که بخش قابل توجهی از مقالات کنفرانس‌های مربوط به علوم و فنون کامپیوتر را مقالات مربوط به این حوزه تشکیل می‌دهند.
یافته‌ها: یافته‌های پژوهش نشان می‌دهد که متن‌کاوی، کاربردی از داده‌کاوی است و تفاوت اصلی این دو، استخراج الگوها از متنی با زبان طبیعی در متن کاوی است درحالیکه داده‌کاوی بر روی پایگاه داده‌های ساخت‌یافته عمل می‌کند. فرایندهای متن‌کاوی دارای دو فاز اصلی پیش‌پردازش مستندات و استخراج دانش هستند. تاکنون هشت تکنیک نیز برای متن‌کاوی معرفی شده است که عبارتنداز: استخراج اطلاعات، بازیابی اطلاعات، خلاصه‌سازی متن، طبقه‌بندی، خوشه‌بندی، بصری-سازی، پردازش زبان طبیعی و عقیده‌کاوی.
نتیجه‌گیری: در سالیان اخیر، توجه بسیار زیادی در حوزه بین‌المللی و ملی به متن‌کاوی شده است. افزایش چشمگیر داده‌های متنی، پژوهشگران را بر آن داشته است که به دنبال روش‌هایی جهت کاوش در این داده‌ها باشند. طبیعی است که محققان ایرانی نیز ازین امر مستنثنا نبوده‌اند. متن‌کاوی به همراه تمامی روش‌ها و تکنیک‌های آن، کوششی است که پژوهشگران را در استخراج دانش و اطلاعات مفید و باارزش از انبوه متون غیرساخت‌یافته‌ای که در محیط اینترنت پراکنده‌اند، یاری می‌کند.

کلیدواژه‌ها


- اسماعیلی، مهدی؛ زاهد، عطیه(1394). مروری بر متن‌کاوی؛ مفاهیم؛ تکنیک­ها و چالش­ها، سومین کنفرانس بین­المللی پژوهش­های کاربردی در مهندسی کامپیوتر و فن­آوری اطلاعات، تهران.
-رجب‌پور، نازنین؛ طلعتیان آزاد، سعید (1394). بررسی روش‌های متن‌کاوی با استفاده از یادگیری ماشین. کنفرانس بین­المللی پژوهش­های کاربردی در فناوری اطلاعات، کامپیوتر ومخابرات، تربت حیدریه.
-شمسی، محبوبه؛ دیوانی، مرضیه (1395). مروری بر متن‌کاوی و روش‌های آن. سومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات، تهران.
-عظیمی همت، منیره؛ شمس عزت، فاطمه (1394). مروری بر متن‌کاوی متون فارسی، دومین کنفرانس بین‌المللی و سومین همایش ملی کاربرد فناوری‌های نوین در علوم مهندسی، مشهد.
-فاخری، سهیل (1396). بررسی و تأمل در متن‌کاوی، روش‌های نوین و ابزارها. سومین کنفرانس ملی رویکردهای نوین در مهندسی کامپیوتر و برق، رودسر.
-نظری، مهدی و حبیبی، مریم (1395). بررسی روش‌های LDA و LSA و PLSA در متن‌کاوی. چهارمین کنفرانس بین­المللی مهندسی برق و کامپیوتر، تهران.
-Gaikwad, S. V., Chaugule, A., & Patil, P. (2014). Text mining methods and techniques. International Journal of Computer Applications, 85(17).
-Talib, R., Hanif, M. K., Ayesha, S., & Fatima, F. (2016). Text mining: techniques, applications and issues. International Journal of Advanced Computer Science and Applications, 7(11), 414-418.