جستجو
ثبت نام
آپاچی دریل راهکاری برای تحلیل داده های بزرگ

آپاچی دریل راهکاری برای تحلیل داده های بزرگ

فناوری دریل انقلابی در تحلیل بیگ دیتا

متخصصین و دانشمندان Data Analytics بر این باورند که در 10 سال اخیر حجم اطلاعات به طور تصاعدی و به طرز چشمگیری افزایش یافته و مدیریت این حجم از اطلاعات نیازمند راهکارها و فناوری های جدیدی می باشد که به طور هوشمند عمل کرده و تجزیه و تحلیل مناسبی از خود ارائه دهند.

در این مقاله قصد داریم تا فناوری آپاچی دریل را مورد بررسی قرار دهیم و معماری ، نحوه عملکرد و ویژگی آنرا بیان کنیم.

Apache Drill یک فریموورک متن باز برای برای مدیریت و تجزیه و تحلیل داده ها می باشد که امکان تعامل مستقیم در زمان واقعی برای انجام تحلیل‌های کاربران را فراهم می‌سازد. Drill نسخه منبع باز سیستم Dremel است که شرکت گوگل برای آنالیز دیتاهای ذخیره شده در هزاران ماشین مختلف و اضافه کردن آنها به موتور جستجویش از آن ابزار استفاده میکند که بسیار سریع بوده و ساختاری شبیه به SQL دارد.

آپاچی دریل قابلیت پشتیبانی از زبان های Query ، فرمت های مختلف داده ، T-SQL را دارد و هدف از طراحی آن Scale کردن 10000 سرور به طور همزمان و پردازش یک تریلیون رکورد در ثانیه می باشد که از سیستم فایل توزیع شده هادوپ (HDFS) برای انجام ذخیره سازی بهره می برد.

آپاچی دریل از انواع پایگاه داده های SQL , No-SQL مانند Amazon S3 ، Azure Blob Storage ، Google Cloud Storage ، Swift ، NAS پشتیبانی می کند و قابلیت آنالیز  داده‌های تو در تو یک مزیت مهم در این فناوری محسوب می شود.

Data store Drill یک ابزار هوشمند و خودآگاه درون دریل می باشد که به طور اتوماتیک و با تجزیه تحلیل داده ها ، کوئری های مورد نظر شما را پیشنهاد می دهد تا تا از قابلیت پردازش داخلی پایگاه داده استفاده کنید و زمان زیادی برای طرح پرس و جو ها صرف نکنید.

نحوه عملکرد آپاچی دریل 

Apache Drill متشکل از یک سرویس به نام Drill Bit می باشد که وظیفه پذیرش درخواست های کلاینت ، پردازش آنها و بازگشت نتایج به کلاینت را بر عهده دارد. پردازش درخواست ها توسط یک ابزار متن باز به نام Calcite انجام می گیرد بطوریکه کوئری های ارسال شده توسط کاربران را به SQL انتقال می دهد. بعد از انتقال Request ها به SQL ، قسمت منطق و بهینه ساز برنامه شروع به کار کرده و کارآمدترین تکنیک را برای اجرای کوئری ها انتخاب می کند و نهایتا نتایج توسط رابط موتور ذخیره سازی نمایش داده شده و قابل دسترسی هستند.

ویژگی های مهم آپاچی دریل در یک نگاه

  • پشتیبانی از معماری Pluggable که امکان اتصال و بهره مندی از چندین Data Store را فراهم می کند
  • پشتیبانی از توابع و Function های تعریف شده توسط کاربران
  • دارا بودن مدل داده ای انعطاف پذیر و معماری قابل توسعه
  • مدیریت و تجزیه تحلیل داده های بزرگ و اجرای تکنیک های SQL روی داده ها
  • بسیار کاربر پسند و دارای رابط کاربری جذاب
  • پشتیبانی از API های استاندارد مانند ODBC , JDBC ، REST full API
  • قابلیت Scaling داده هار از یک نود به هزاران نود در عرض چند ثانیه
  • Handle کردن ده هزار سرور به صورت Real Time
  • وجود Engine اجرای توزیع شده این امکان را فراهم میکند که تمامی خوشه ها قابلیت دریافت درخواست ها کاربران را داشته باشند.
  • Drill از انواع داده های پیچیده / چند ساختاری پشتیبانی می کند.
  • بهره مندی از ابزار مدیریت حافظه تخصصی که میزان استفاده از حافظه اصلی برنامه را مدیریت کرده و درخواست های اضافی را Suspend می کند.
  • اجرای استراتژی مدیریت داده غیرمتمرکز توسط دریل

بررسی ویژگی Decentralized metadata در فناوری آپاچی دریل 

Decentralize به معنای برقراری ارتباط بدون وجود مرکزیت خاص است. در حالت غیرمتمرکز، برای برقراری ارتباط و انجام یک هدف، اجزای یک مجموعه به طور مستقیم با یکدیگر تعامل می‌کنند؛ و واسطه یا نهاد مرکزی در بین مسیر قرار ندارد.

برخلاف سایر فناوری های مدیریت بیگ دیتا یا هر پایگاه داده رابطه ای سنتی ، Drill نیاز به متادیتای متمرکز ندارد. Drill Meta Data از افزونه های متنوع ذخیره سازی داده به صورت غیر متمرکز پشتیانی میکند. متا دیتایی مانند Hive که غیر متمرکز عمل می کند نمونه ای از این افزونه ها می باشد. در حالی که خود Hive یک متادیتای غیر متمرکز می باشد ولی باز هم آپاجی دریل به یک Hive وابستگی کامل ندارد و کاربران می توانند از چندین Hive برای ارسال درخواست خود استفاده کنند.

نظریه با ارزش وایکوف در بورسبهترین از نظر کاربران
نظریه با ارزش وایکوف در ب ...
افزایش حجم آپلود برای پرستاشاپآخرین پست
افزایش حجم آپلود برای پرس ...