جمع آوری اطلاعات با استفاده از تکنیک های متن کاوی

نرجس شهرکی

1400/5/28
1400
سایر مقاله ها

تکنیک های متن کاوی

پیش از این به مبحث داده کاوی و تجارت الکترونیک پرداختیم. حال در این مقاله می خواهیم به متن کاوی و استخراج متن و همچنین تکنیک های آن بپردازیم. توسعه در زمینه های وب، کتابخانه های دیجیتالی، اسناد فنی و داده های پزشکی دسترسی به تعداد بیشتری از اسناد متنی مفید برای توسعه منابع داده را،آسان کرده است. بنابراین استخراج متن (TM) یا کشف اطلاعات از پایگاه های داده متنی یک کار چالش بر انگیز است تا استانداردهای عمق زبان طبیعی مورد استفاده در اکثر اسناد موجود را بر آورده کند. متن کاوی یک روش بهینه و منحصر به فرد برای استخراج دانش از متن های مختلف است.

بایگانی داده ها و منابع دیجیتالی، اطلاعات متنی را ارائه می دهند و این سوال پیش می آید که چه کسی مسئول بررسی و تجزیه و تحلیل داده ها است؟ با در نظر گرفتن شرایط مربوطه، تجزیه و تحلیل اطلاعات مفید به صورت دستی و موثر امکان پذیر نیست بنابراین از راه حل های نرم افزاری برای تجزیه و تحلیل حجم زیادی از متن، استخراج داده های مربوطه، تجزیه و تحلیل اطلاعات و سازماندهی اطلاعات مرتبط با استفاده از ابزارهای خودکار استفاده می شود. به عنوان مثال شما می توانید با نرم افزار رپیدماینر(Rapidiner) به استخراج متن و جمع آوری داده های متنی بپردازید.

متن کاوی معمولاً برای نتایج سریع استفاده می شود. همچنین با استفاده از این روش می توانید به طبقه بندی متن، خوشه بندی متن، استخراج قوانین ارتباط و تجسم متن بر اساس هر حوزه بپردازید. تکنیک متن کاوی شامل استخراج اطلاعات، بازیابی اطلاعات، پردازش زبان طبیعی، خلاصه متن و خوشه بندی متن است که در ادامه هر یک را به اختصار معرفی می کنیم. پس با ما همراه باشید.

استخراج اطلاعات

استخراج اطلاعات (IE) تولید اطلاعات مفید و مهم از حجم زیادی از متن است. ویژگی ها و ارتباط اطلاعات توسط کارشناسان حوزه تعریف می شود. از برنامه های IE برای استخراج و ایجاد روابط بین ویژگی ها و موجودیت های خاص از سند استفاده می شود. برای تحقیقات بیشتر، مجموعه استخراج شده در پایگاه داده قرار می گیرد. سپس دقت و فراخوانی برای اعتبار سنجی و سنجش اعتبار نتایج بر روی داده های استخراج شده مورد استفاده قرار می گیرد. برای انجام فرآیندهای استخراج اطلاعات برای دستیابی به نتایج مرتبط، دانش جامع و دقیقی درباره ی آن ضروری است.

بازیابی اطلاعات

بازیابی اطلاعات (IR) فرآیند استخراج توسط مجموعه ای از کلمات یا جملات از الگوهای مرتبط است. استخراج متن و جمع آوری داده های متنی رابطه نزدیکی با هم دارند. الگوریتم های مختلفی در سیستم های IR به منظور تشخیص رفتار کاربر و جستجوی داده های مربوطه استفاده می شود. برای استخراج اسناد مربوطه در یک کلمه وب، موتورهای جستجوی گوگل و یاهو بیشتر از سیستم بازیابی اطلاعات استفاده می کنند. این موتورهای جستجو از الگوریتم های مبتنی بر پرس و جو برای نظارت بر روندها و دستیابی به نتایج بیشتر استفاده می کنند. این موتورهای جستجو اطلاعاتی را در اختیار کاربران قرار می دهند که بیشتر برای بر آوردن نیازهای آن ها مناسب است.

پردازش زبان طبیعی

NLP مربوط به پردازش خودکار و تجزیه و تحلیل اطلاعات متنی بدون ساختار است. این رابطه بین موجودیت های نامگذاری شده برای اختصار و مترادف آن ها و همچنین شناسایی موجودیت های نامگذاری شده (NER) را تجزیه و تحلیل می کند. NER همه موارد شیء مشخص شده را از گروه اسناد شناسایی می کند. چنین نهادها و نمونه های آن ها امکان شناسایی ارتباطات و سایر اطلاعات را برای تحقق مفهوم کلیدیفراهم می کند. با این حال، این روش فاقد فهرست کامل لغت نامه ها برای همه موجودات نام گذاری شده برای شناسایی است. برای تولید نتایج قابل قبول، باید از الگوریتم های پیچیده مبتنی بر جستجو استفاده کرد.

خلاصه متن

خلاصه متن روشی است که به موجب آن پرونده های اصلی سند بازیابی و خلاصه می شوند. متن خام فعالیت های پیش پردازش و پردازش را خلاصه می کند. این روش برای پیش پردازش، توکن، توقف حذف کلمات و فرآیندهای اصلی استفاده می شود. در نقطه پردازش، فهرست واژگان تولید می شود. در گذشته، کلمه یا عبارت خاصی برای خلاصه سازی خودکار اسناد استفاده می شد. روش های بیشتر متن کاوی با فرایند استاندارد استخراج متن برای بهبود ارتباط و دقت نتایج معرفی شده است.

خوشه بندی متن

اساس فرضيه خوشه بندی متن این است که اسناد مربوطه بايد شباهت بيشتري با يكديگر نسبت به اسناد غير مرتبط داشته باشند. روش خوشه بندی روشی معتبر برای تجزیه و تحلیل حجم زیادی از داده ها مانند داده کاوی است. این روش یکی از کارآمدترین روش ها برای تجزیه و تحلیل موضوعات متنی است. علاوه بر این، روش تجزیه و تحلیل موضوعی که در آن، اشیاء نام گذاری شده اند با وقایع هم زمان با هم گروه بندی شده است، ترویج می کند و سپس آن ها را تحت مکانیسم خوشه بندی قرار می دهد به گونه ای که موارد مکرر با استفاده از روش مبتنی بر ابر نمودار در مجموعه قرار می گیرد. مجموعه ای از موجودیت های نامگذاری شده در یک خوشه مربوط به یکی از موضوعات جاری گروه نشان داده شده است. روش ردیابی موضوع در داخل اطلاعات متن پویا توجه محققانی را که روی موضوع خوشه بندی متن دیجیتال کار می کنند جلب کرده است. فرایند خوشه بندی داده ها شامل روش ها و الگوریتم های مختلف بر اساس مدیریت اسناد بدون نظارت است.

آیا متن کاوی کاربردی هم دارد؟

کتابخانه های دیجیتال

کتابخانه ها منبع مهمی از اطلاعات برای محققان هستند و کیفیت تحقیقات آنها توسط کتابخانه های دیجیتالی مورد توجه قرار می گیرد. این روش جدیدی برای سازماندهی داده ها ارائه می دهد تا میلیاردها سند بتوانند به صورت آنلاین در دسترس قرار گیرند. این روش جدیدی برای سازماندهی داده ها و دسترسی آنلاین به میلیون ها سند ارائه می دهد. کتابخانه دیجیتال بین المللی چند زبانه Green-stone یک روش قانع کننده برای استخراج اسناد با فرمت های مختلف مانند Microsoft word ، pdf ، post-script ، HTML ، زبان های اسکریپت و پیام های الکترونیکی ارائه می دهد. همچنین از پردازش داده ها، همراه با اسناد متنی، در قالب صوتی تصویری و تصویر پشتیبانی می کند. عملیات مختلفی در فرآیند استخراج متن انجام می شود، مانند انتخاب سند، غنی سازی، استخراج اطلاعات و خطاب به اشخاص در بین اسناد و ایجاد ارجاع و جمع بندی. ابزارهای مورد استفاده برای استخراج متن در کتابخانه های دیجیتال GATE ، Net Owl و Aylien هستند.

حوزه علمی و پژوهشی

با استفاده از متن کاوی در تحقیقات، مقالات و مطالب مرتبط در زمینه های مختلف را می توان در یک مکان یافت و طبقه بندی کرد. با استفاده از خوشه بندی k-means و روش های دیگر، ویژگی های اطلاعات مربوطه مشخص می شود. دانش آموزان می توانند به موفقیت خود در موضوعات مختلف و نحوه انتخاب موضوعات بر ویژگی های مختلف دسترسی داشته باشند.

علوم پزشکی

علوم پزشکی و بخش های بهداشتی اطلاعات آماری یا مکتوب در مورد سابقه بیماران، عفونت ها، داروها، علائم بیماری و تشخیص و غیره تولید می کنند. فیلتر کردن یک متن مناسب از یک مخزن بیولوژیکی بزرگ یک چالش بزرگ است. ابزارهای استخراج متن در زمینه زیست پزشکی این شانس را برای کسب اطلاعات مفید، ادغام و ایجاد ارتباط بین بیماری ها، حیوانات و ژن های مختلف فراهم می کند. استفاده از ابزارهای مناسب در زمینه متن کاوی به ارزیابی اثر بخشی درمان های پزشکی که نشان می دهد کمک می کند. استفاده از متن استخراج برای کشف نشانگرهای زیستی، صنعت داروسازی، تجارت بالینی تحلیلی، مطالعات ایمن پیش بالینی در مورد سمیت، ثبت اختراع در زمینه رقابت و چشم انداز، نقشه برداری ژن ها و شناسایی هدفمند از طریق ابزارهای مختلف یک امر ضروری و سودمند در علوم پزشکی است.

رسانه های اجتماعی

برای تجزیه و تحلیل برنامه های کاربردی در رسانه های اجتماعی برای نظارت، تجزیه و تحلیل متن ساده آنلاین از اخبار اینترنتی، وبلاگ ها، ایمیل، بسته های نرم افزاری متن کاوی در دسترس خواهد بود. ابزارهای استخراج متن به شناسایی و تجزیه و تحلیل تعداد پست های مورد علاقه و پشتیبانی رسانه های اجتماعی کمک می کند. این نوع تحلیل واکنش افراد را نسبت به مقالات، رسانه های مختلف و نحوه انتشار آن ها آشکار می کند.

هوش تجاری

متن کاوی نقش مهمی در هوش تجاری ایفا می کند که به شرکت ها و سازمان ها اجازه می دهد از مشتریان و رقبای خود تصمیمات بهتری بگیرند. این یک بینش عمیق تر از صنعت ارائه می دهد و اطلاعاتی در مورد چگونگی افزایش رضایت مشتری و به دست آوردن مزایای رقابتی ارائه می دهد. برنامه های استخراج متن مانند تجزیه و تحلیل متن IBM ، Rapid miner ، GATE در تصمیم گیری در مورد یک شرکت، ارائه هشدار در مورد نتایج خوب و بد و شرایط در حال تحول که منجر به اصلاح ابتکارات می شود، کمک می کند. همچنین در فرایند مدیریت زنجیره مشتری در برنامه های بانکی و تجاری سر و کار دارد.

چارچوب پردازش متن کاوی

استخراج متن شامل سه مرحله از جمله پیش پردازش، عملیات استخراج متن و پس پردازش است. پیش پردازش متن شامل فعالیت هایی از جمله تبدیل اسناد به نوع متوسط برای اطمینان از سازگاری با ابزارهای مختلف استخراج، استخراج طبقه بندی انتخاب، متن و بازیابی اطلاعات است. مرحله دوم شامل متون مختلف مانند خوشه بندی، تعامل شناسایی قوانین، تجسم و فراوانی اصطلاحات است که از طریق کارهای استخراج متن مانند ارزیابی و انتخاب دانش، تجزیه و تحلیل و تجسم انجام می شود. همچنین در مرحله سوم نیز، تغییراتی در داده ها ایجاد می شود.

راهکارهای فرآیند استخراج متن عمومی

1. داده های بدون ساختار از داده های منبع مختلف در قالب های متفاوت فایل از جمله متن ساده، صفحات وب، فایل های pdf جمع آوری می شود. همچنین، پیش پردازش و حذف نا هنجاری ها انجام می شود .

2. اطمینان حاصل کنید که با توقف کلمات و نمایه سازی داده ها، اصل متن موجود در اختیار شما گرفته و استخراج می شود. وفاداری به اصل متن یک امر مهم است.

3. عملیات پردازش و کنترل برای ممیزی و پاکسازی بیشتر مجموعه داده ها با پردازش خودکار اعمال می شود.

5. تجزیه و تحلیل الگوها توسط سیستم اطلاعات مدیریت (MIS) انجام می شود.

6. داده های پردازش شده در مراحل بالا برای استخراج اطلاعات مفید و مرتبط برای تصمیم گیری کارآمد و به موقع، تجزیه و تحلیل روند پردازش استفاده می شود.

سخن پایانی

در این مقاله مروری کوتاه بر روش های متن کاوی برای بهبود فرایند آن مطرح شد. به منظور استخراج اطلاعات مفید با استخراج داده های نا مربوط برای تجزیه و تحلیل پیش بینی، از الگوها و توالی های خاصی استفاده می شود. انتخاب و استفاده از تکنیک ها و ابزارهای مربوط به دامنه، به تسهیل و کارآیی استخراج متن کمک می کند. ادغام حوزه ها، مفاهیم مختلف جزئیات، تصحیح متن چند زبانه و پیچیدگی در پردازش زبان طبیعی، مسائل و مشکلات اصلی در فرآیند استخراج متن است.