بررسی ارتباط داده کاوی با هوش مصنوعی
- 1399/10/25
- 2587
- هوش مصنوعی
علم داده کاوی و استفاده از هوش مصنوعی برای بهبود راندمان آن
امروزه ما با جهانی پر از فناوری های جدید و حجم زیادی از داده ها و اطلاعات روبرو هستیم و رشد سریع اینترنت و بوجود آمدن شبکه های اجتماعی مختلف و دسترسی آسان تمامی اقشار جامعه به این تکنولوژی ها موجب شده تا به انفجار داده برسیم و مدیریت این حجم عظیمی از داده ها متخصصین امر را وادار به مقابله با چالش های جدیدی کرده است.
در این شرایط حساس و مهم نیاز به یک علم جهت مدیریت داده ها در وسعت بزرگ بیشتر از همیشه احساس میشود. یک فناوری جدید و هوشمند که قابلیت استخراج اطلاعات را در هر زمان داشته باشد و در دست یافتن به اطلاعات گرانبها و با ارزش عملکرد مناسبی از خود نشان دهد.
منظور از داده کاوی چیست ؟
یک فناوری بسیار پرکاربرد برای کاوش و استخراج اطلاعات در حجم وسیعی از داده ها یا همان Big Data که به مدیران کسب و کارها در خصوص تصمیم گیری درست و سودآور کمک کرده و موجب بهبود دید و بینش آنها در نحوه مدیریت و ارتباط با کارکنان خود می شود.
یکی دیگر از کاربردهای داده کاوی در CRM یا همان مدیریت ارتباط با مشتری می باشد. شرکتها از طریق ارائه خدمات و ارتباط مستمر با مشتری، اطلاعات زیادی به دست میآورند که اگر راه استفاده از این دادهها را بدانند، سود بسیاری خواهند برد. داده کاوی (Data Mining) به زبان ساده یک روش حل مسئله است که با تحلیل حجم زیادی از داده ها، الگوهای تکرارشونده ای را از آنها استخراج میکند. سپس با پیداکردن ارتباطات بین اتفاقات مختلف و این الگوها، راه حل هایی برای چالشها ارائه میدهد. در واقع دیتا ماینینگ از اطلاعاتی که ممکن است کاربردی نداشته باشند، نتایج ارزشمندی کشف کرده و آنها را قابل استفاده میکند.
حال اگر این فناوری را با هوش مصنوعی ترکیب کنیم و از ابزارها و الگوریتم های این علم در جست و جو و پردازش اطلاعات استفاده کنیم میتوانیم به یک تکنولوژی عجیب و بسیار کاربردی دست پیدا کنیم که در کوتاه ترین زمان ممکن کاوش های مختلف را انجام داده و بهترین نتایج را برای ما نمایش بدهد.
هوش مصنوعی و انواع مختلف آن
در حالت کلی هوش مصنوعی یا AI به چگونگی و نحوه تولید یک عامل هوشمند مانند انسان مربوط می شود. یک عامل که توانایی درک اصول و قواعد را داشته باشد و با تحلیل مشکلات راه حل مناسبی برای آن ارائه دهد یک عامل یا ماشین Smart می باشد و الگوریتم های AI درون آن پیاده سازی شده است.
دسته بندی سیستمهای هوش مصنوعی بر اساس کاربرد و الگوریتم های آن انجام میشود و چند نمونه از آنها را بیان میکنیم:
1) هوش مصنوعی ضعیف (Weak AI) : مرحله ای از هوش مصنوعی است که تمرکزش تنها بر انجام وظیفه و کاربرد خاصی است. از کاربردهای هوش مصنوعی ضعیف می توان به سیستم های پیشنهاد موسیقی ، دستیارهای شخصی مانند سیری و الکسا و سیستم های فیلترینگ هوشمند ایمیل اشاره کرد.
2) هوش مصنوعی عمومی (General AI) : هوش مصنوعی عمومی یا هوش مصنوعی قوی (Strong AI) ، مرحله ای از هوش مصنوعی که می تواند رفتارهای انسان را شبیه سازی کند و کاملا مانند یک انسان فکر کند، بفهمد و رفتار کند.
3) هوش مصنوعی بسیار هوشمند (Super intelligent AI) : یک مرحله تخیلی و هیجان انگیز که اکثرا در فیلم ها این مرحله را مشاهده کرده ایم. ربات هایی با توانایی های خاص و فوق العاده که از همه لحاظ نسبت به انسان ها برتری دارند. که قدرت تفکر بالاتر، توانایی حل مسائل پیچیده ، سرعت بیشتر و هوشمندی خارق العاده از ویژگی ها این مرحله از هوش مصنوعی می باشد.
ارتباط هوش مصنوعی با دیتا ماینینگ و استفاده از الگوریتم های آن در این فناوری
همانطور که گفته شد استفاده از الگوریتم های هوش مصنوعی در علم داده کاوی میتواند بسیار موثر واقع شده و در تسریع عملیات مربوط به استخراج داده ها کمک بسیار زیادی کند.
داده کاوی به زبان ساده فیلتر کردن مقادیر زیادی از داده های خام برای بدست آوردن اطلاعات مفیدی است و رایج ترین ابزاری که به هنگام کاوش از آن استفاده می شود هوش مصنوعی می باشد.
داده کاوی شامل الگوریتم های متعددی است اما بصورت کلی این الگوریتم ها در 5 دسته زیر قرار میگیرند :
1) الگوریتمهای وابستگی(Association algorithms) : یک متد مناسب برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه دادههای بزرگ است.کشف روابط و وابستگی میان ویژگی های مختلف متغییرها بر عهده این الگوریتم ها است. این الگوریتم ها به دنبال این هستند که دریابند کدام متغییر ها و ویژگی ها به هم وابسته هستند و وابستگی آنها به چه شکل است.
2) الگوریتمهای دستهبندی(Segmentation algorithms) : همانطور که از نام این این الگوریتم ها مشخص است ، وظیفه دسته بندی را بر عهده دارند. این الگوریتم ها داده ها را به گروه و دسته هایی تقسیم می کنند که هر دسته دارای ویژگی های مشابهی هستند.
3) الگوریتمهای طبقهبندی(Classification algorithms) : طبقه بندی (Classification) یکی از زیرشاخه های اصلی داده کاوی و یادگیری ماشین است. با استفاده از طبقه بندی میتوان به صورت هوشمند، اشیا مختلف را در یک تصویر شناسایی کرد، مشتریان ناراضی را قبل از خروج از یک شرکت شناسایی و ترمیم کرد، پلاک اتومبیل ها را با دقت بالا خواند، ماشین های خودران (بدون راننده) ساخت و هزار کار دیگر که در حوزه یادگیری ماشین انجام می شود.
4) الگوریتمهای رگرسیون(Regression algorithms) : الگوریتم (Regression) از جمله روشهای آماری برای تعیین روابط میان دادهها است که با استفاده از دادههای پیشین، مدلهای ریاضیاتی را استخراج کرده و برای پیش بینی ارزش داده هایی که در آینده تولید میشوند، به کار میبرد. این دسته از الگوریتمها انواع مختلفی مانند خطی، چندگانه و غیره دارند و با تکیه بر منطق ریاضیاتی، در بررسی و مدل سازی متغیرهایی برای تحلیل دادهها بسیار کاربردی هستند. این دسته از الگوریتمها برای کلاس بندی دادهها به کار میروند.
5) الگوریتمهای تحلیل زنجیرهای(Sequence analysis algorithms) : از توالی یا اتفاقات مکرر در بین عناصر data set، یک خلاصه ایجاد میکند. مثل کلیک های صورت گرفته در یک وب سایت.
برترین الگوریتم های هوش مصنوعی که در داده کاوی مورد استفاده قرار میگیرند عبارت اند از:
1) الگوریتم K_means : الگوریتم K-Means یکی از الگوریتمهای مورد استفاده در داده کاوی و یادگیری ماشین هست که برای خوشهبندی (Clustering) یا دستهبندی بدون نظارت از آن استفاده میشود.
2) الگوریتم نایو بیز (Naive Bayes) : الگوریتم نیو بیز، از جمله الگوریتمهای کلاس بندی است که بر مبنای تکنیکهای دسته بندی احتمالی است. این الگوریتم آماری از قاعده بیز در ریاضیات استفاده کرده و با تعیین متغیرهای مستقلی اقدام به مشخص کردن احتمال وقوع و دسته بندی دادهها میکند.
3) الگوریتم Support vector machines : اين روش از جمله روشهای نسبتاً جديدي است که در سالهای اخير کارايی خوبی نسبت به روشهای قديمیتر برای طبقهبندی از جمله شبکههای عصبی پرسپترون نشان داده است. مبنای کاری دستهبندی کننده SVM دستهبندی خطی دادهها است و در تقسيم خطی دادهها سعی میکنيم خطی را انتخاب کنيم که حاشيه اطمينان بيشتری داشته باشد.
4) الگوریتم Apriori : الگوریتم Apriori یکی از روش های پر کاربرد برای کاوش مجموعه اقلام تکرار شده و قواعد وابستگی association rule mining در بحث داده کاوی و یادگیری ماشین است این الگوریتم برای داده کاوی مکرر و یادگیری قانون وابستگی بر روی بانکهای اطلاعاتی کلی، مورد استفاده قرار میگیرد.
5) الگوریتم Page rank : الگوریتم page rank توسط لری پیج و سرگی برین (دو تن از بنیان گذاران گوگل ) توسعه پیدا کرده است. بر اساس این الگوریتم یک سری ویژگی ها و لینک های ورودی به یک سایت، امتیاز دهی می شود و سایت ها بر اساس آنها رتبه بندی می شوند. در این صورت کاربر هنگام جست و جو کلمه مورد نظر ، به سایتی بر میخورد که در زمینه جست و جود شده بیشترین امتیاز را دارد و کاربر به هدف نزدیک تر می شود.
6) الگوریتم AdaBoost :یک روش یادگیری جمعی است و معروفترین الگوریتم از خانواده الگوریتمهای Boosting است. در الگوریتم های یادگیری جمعی، یک نمونه توسط چندین کلاسه بند مختلف کلاسه بندی می شود و نتایج کلاسه بندی ها به شکل هوشمندانه ای با یکدیگر ترکیب شده و نتیجه نهایی برای آن نمونه خاص تعیین می گردد.
7) الگوریتم CART : یکی از محبوبترین و در عین حال سادهترین الگوریتمهای درختهای تصمیم، درخت تصمیمِ CART است که کاربردهای زیادی در طبقه بندی و رگرسیون دارد. CART که خود مخفف Classification and Regression Tree است بر اساس درخت های دودویی (باینری) بنا نهاده شده است.