هدوپ چيست؟
هدوپ يك پروژه مبتني بر برنامه نويسي متن باز است كه توسط سازمان نرم افزاري آپاچي ايجاد شده است. ايده اوليه هدوپ اولين بار در شركت گوگل رقم خورد اما خيلي ها باور به پياده سازي اين سيستم نداشتن و در چند سال اول اين ايده تنها بصورت تئوري مطرح بود. هدوپ امكان ذخيره سازي اطلاعات را در چندين سرور ( پي سي) با هزينه اي پايين فراهم مي آورد.
كلودرا شركتي است كه بصورت فعال در اين زمينه فعال مي باشد و بسته نرم افزاري بي نظير هدوپ را ايجاد كرده و آن را انتشار داده و پشتيباني مي كند.
تكنولوژي هدوپ از دو بخش كلي اچ دي اف اس يا سيستم فايل انتشاري هدوپ (Hadoop Distribition File System) و همچنين تكنيك با كيفيت پردازي اطلاعات به نام مپ ريديوس (MapReduce) استفاده مي كند.
ساختار كلي اطلاعاتي در هدوپ بدينگونه مي باشد كه اطلاعات توسط سيستم هدوپ شكسته شده و به چندين سرور فرستاده مي شود.سرورها بسته به نوع اطلاعات كه ممكن است پردازشي يا ذخيره اي باشد اطلاعات را پردازش يا ذخيره سازي مي كنند. در هنگام در خواست اطلاعات مجدد سيستم اطلاعات را از سرور هاي مختلف گرفته ، مونتاژ كرده و در خروجي نمايش مي دهد.
خوبي اين سيستم تهيه نسخه پشتيبان از اطلاعات بصورت خودكار است. هر تكه از اطلاعات در چندين قسمت ( سرور ) ذخيره مي شود و در صورت آسيب ديدن يكي از سرورها ، سرور ديگر قادر است مسؤوليت را بر عهده گرفته و اطلاعات مورد نظر را جايگزين كند.
براي پياده سازي هدوپ، كمترين تعداد سرور چند عدد است؟
هرچند پياده سازي سيستم هدوپ بر روي يك تك سيستم كامپيوتري پيشنهاد نشده است اما نصب و راه اندازي آن تنها براي تست و كسب تجربه روي يك سيستم امكانپذير است. با توجه به اينكه در اين سيستم نياز به ايجاد نود-سرور هستيم لذا پيشنهاد مي كنم در صورتي كه مايل به راه اندازي سيستم ذخيره سازي هدوپ براي سازمان خود هستيد از چهار سيستم كامپيوتري ( يك سيستم مركزي و سه نود) استفاده كنيد.
چه شركت هايي نياز به نصب هدوپ دارند؟
سسیستم هدوپ در واقع برای ذخیره سازی و فراخوانی اطلاعات حجیم (در حد گیگابایت، ترابایت و یا حتی پتابایت) مورد استفاده قرار می گیرد. این اطلاعات می تواند شامل فایل و یا پردازش باشد. برای مثال چندی قبل شرکت یاهو که بزرگترین سیستم هدوپ را در اختیار دارد، موفق شد رقم ۲،۰۰۰،۰۰۰،۰۰۰،۰۰۰،۰۰۰ام عدد پی و چند رقم بعد و قبل آن را محاسبه کند !! جالب است بدانید که این عملیات که بر روی ۱۰۰۰ سرور صورت گرفته به مدت ۲۳ روز به طول انجامید، در حالی که اگر این عملیات را بر روی یک سیستم اجرا کنیم، حدود ۵۰۳ سال به طول خواهد انجامید !!
اکثر کمپانی های بزرگ دنیا از قبیل AOL،Facebook،Yahoo،IBM و ….. از این تکنولوژی استفاده می کنند. برای مثال شرکت یاهو با بیش از ۱۰۰،۰۰۰ هسته ی CPU در بیش از ۴۰،۰۰۰ سرور بزرگترین مجری سیستم هدوپ در دنیا محسوب می شود. بزرگترین کلاستر (Cluster) این شرکت شامل ۴۵۰۰ سرور می باشد که هر کدام دارای ۲ پردازشگر ۴ هسته ای، ۴ هارد دیسک ۱ ترابایتی و ۱۶ گیگابایت حافظه ی رم می باشند! برای مشاهده ی لیست کامل این شرکت ها به این لینک http://wiki.apache.org/hadoop/PoweredBy مراجعه فرمایید.