موصى به, 2024

اختيار المحرر

Cloudera Moves Hadoop Beyond MapReduce

Wordcount program in Hadoop using Cloudera platform

Wordcount program in Hadoop using Cloudera platform
Anonim

مع التحديث الأخير لتوزيع أباتشي هادووب ، قدمت كلوديرا إمكانية استخدام خوارزميات معالجة البيانات خارج MapReduce المعتادة ، حسبما أعلنت الشركة يوم الثلاثاء.

الإصدار 4 من Cloudera Distribution بما في ذلك Apache Hadoop (CDH) يأتي أيضًا بعدد من تحسينات المرونة التي ينبغي أن تسمح للمنظمات "بتشغيل المزيد من أعباء العمل الحرجة على النظام" ، قال تشارلز زيديليوسكي ، نائب رئيس Cloudera للمنتجات.

CDH4 يوسع عدد العمليات الحسابية التي يمكن تنفيذها في Hadoop ، أوضح Zedlewski. عادة ، ستستخدم Hadoop MapReduce ، الذي يقطع مهمة تحليل البيانات عبر العديد من العقد ، ثم يجمع النتائج مع إكمال العقد لأجزاء من المهمة.

CDH4 يقدم ميزة جديدة تسمى coprocessors ، والتي تسمح للبرامج أن تكون جزءا لا يتجزأ من البيانات نفسها. يتم تنفيذ البرامج عند استيفاء شروط معينة ، مثل عندما يصل متوسط ​​مجموعة من الأرقام إلى عتبة محددة مسبقًا. الفكرة مشابهة لمشغلات قاعدة البيانات والإجراءات المخزنة. تتواجد البرامج مع البيانات ، والتي تنتشر عبر خوادم متعددة.

تتيح المعالجات مرونة أكثر من عملية MapReduce. وقال زدلفسكي "يمكننا الآن القيام بمزيد من العمليات في الوقت الحقيقي أو المستمر في البيانات المتحركة." "هذا يسمح لك بدفع عمليات مكثفة للبيانات إلى طبقة البيانات وموازنة عبء العمل هناك."

CDH4 يتيح للمستخدمين أيضًا تنفيذ أطر تحليل البيانات الخاصة بهم بصرف النظر عن MapReduce. وقال زيدلوسكي: "لم تعد بحاجة إلى إخماد كل أعباء المستخدم الخاصة بك في نموذج واحد". "MapReduce هي عملية خطية للغاية ، ولكن في بعض الأحيان تحتاج الأمور إلى العمل على عملية تكرارية."

أحد الأمثلة على برنامج يمكن أن يعمل على CDH4 هو Apache Hama ، وهو إطار حوسبة متوازي متزامن بالجملة يمكن استخدامه في المجال العلمي العمليات الحسابية. "يمكن لحماه العمل على نفس البيانات مثل مابريديوس. ويمكنه استعارة نفس وحدة المعالجة المركزية والذاكرة التي تستخدمها وظائف مابريديوس". يقول زيدلوسكي.

CDH4 يأتي بعدد من الميزات الأخرى أيضًا ، وجميعها معدلة من أحدث إصدارات من المكونات مفتوحة المصدر التي تشكل منصة Hadoop ، مثل نظام ملفات HDFS ونظام قاعدة بيانات HBase.

يتناول التوزيع الجديد أحد نقاط الضعف الأساسية في Hadoop ، وهي اعتماد نظام الملفات على اسم شفرة واحد لتوجيه كل حركة المرور. يتتبع namenode مكان وجود جميع البيانات في كتلة Hadoop. يعتبر وجود namenode واحد فقط لكتلة نقطة ضعف. إذا توقف هذا الرمز عن العمل بشكل صحيح ، فسيكون النظام بأكمله غير قابل للاستخدام. هذا الإصدار من CDH يتفوق على هذه المشكلة من خلال تضمين القدرة على إعداد nemenode نسخة احتياطية من شأنها أن تنطلق أوتوماتيكيا في حالة فشل الاسم الرئيسي الأساسي.

CDH4 يوفر القدرة على تشغيل إصدارات مختلفة من Hadoop في نظام واحد. وهذا من شأنه تسهيل عملية الترقية إلى إصدار جديد من Hadoop. كل عقدة لا تحتاج إلى تحديث في نفس الوقت. كما يأتي CDH4 مع عدد من التحديثات الأمنية. على سبيل المثال ، يمكن لـ HBase الآن السماح بالوصول إلى الجداول والأعمدة بناءً على المستخدمين والمجموعات المعينة. يساعد هذا في تأمين المعلومات الحساسة ويسمح لمزودي الخدمة بتشغيل Hadoop لعدة عملاء.

تم تحديث برنامج إدارة الشركة لـ CDH4 ، والذي يدعى Cloudera Manager ، كذلك. يمكن استخدام الإصدار الجديد ، الإصدار 4 ، لإدارة مجموعات متعددة. يمكن للمسؤول إعداد مجموعات مختلفة للاختبار والإنتاج ، أو تقديم مجموعات منفصلة من مستخدمين مختلفين في مؤسسة. يتضمن البرنامج أدوات تصور جديدة تستخدم خرائط الحرارة لتقديم فكرة مرئية عن الأماكن التي قد توجد بها نقاط الاضطراب. هذا الإصدار هو الأول الذي يحتوي على واجهة برمجة التطبيقات (واجهة برمجة التطبيقات) ، لذا يمكن الوصول إلى جميع الوظائف من البرامج الأخرى ، مثل برنامج إدارة خدمة Tivoli المدمج الخاص بـ IBM.

بالإضافة إلى إصدارات المنتجات هذه ، أعلنت كلوديرا أيضًا أنها وقعت مع 250 شريكًا ، الذين يقدمون منتجات أو خدمات تكميلية استنادًا إلى إصدار كلوديرا من Hadoop.

Joab Jackson يغطي برامج المؤسسة والتكنولوجيا العامة الأخبار العاجلة عن The IDG خدمة الأخبار . اتبع Joab على تويتر علىJoab_Jackson. عنوان البريد الإلكتروني لـ Joab هو [email protected]

Top