موصى به, 2024

اختيار المحرر

تحديث Spark يجلب دعم R وتعليمات الجهاز

من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل الØ

من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل الØ
Anonim

واحد من معظم منصات معالجة البيانات الكبيرة الشائعة ، Spark ، الآن تدعم واحدة من لغات البرمجة الإحصائية الرئيسية ، R ، والتي يمكن أن تمهد الطريق لتحليل إحصائي كبير للبيانات الكبيرة.

"R هي اللغة المشتركة لعلماء البيانات وقد انفجرت تبنيها كتب باتريك ويندل ، أحد المساهمين الرئيسيين في سبارك ، في رسالة إلكترونية: "خلال العامين الماضيين". ويندل هو أيضًا شريك مؤسس ومهندس برمجيات في Databricks ، والذي يقدم إصدارًا تجاريًا من شركة Spark للمؤسسات السحابية.

يتيح الإصدار الجديد للمستخدمين R العمل بشكل مباشر على مجموعات بيانات كبيرة ، أو توسيع المئات أو الآلاف من الآلات ، وكتب ويندل: "ما هو أبعد من حدود برنامج R مستقل". 2 مليون مستخدم في جميع أنحاء العالم ، R هي واحدة من أكثر لغات البرمجة المستخدمة على نطاق واسع مصممة للحوسبة الإحصائية والتحليلات التنبؤية.

مشروع مفتوح المصدر ، تم تصميم R للعمل فقط على كمبيوتر واحد ، مما يحد من حجم التحليل الوظائف التي يمكن تنفيذها بسهولة. كانت هناك بعض الجهود المبذولة لجعل مهام R كبيرة تعمل على مجموعات من أجهزة الكمبيوتر لوظائف أكبر ، مثل حزمة H الموزعة Hewlett-Packard.

يوفر Spark المحدّث حديثاً دفعة أخرى لتشغيل R بشكل متوازٍ. في العام الماضي ، ازدادت شعبية منصة معالجة البيانات Spark ، وهي مشروع مفتوح المصدر تشرف عليه مؤسسة Apache Software Foundation ، حيث استخدمت العديد من المؤسسات التقنية لتحليل البيانات المخزنة عبر مجموعة من أجهزة الكمبيوتر.

شركات مثل استخدم كل من Autodesk و eBay و NASA و Opentable و Yahoo Spark لفهم المجموعات الكبيرة من البيانات. أشار حوالي 17 بالمائة من 3000 من محترفي جافا إلى أنهم كانوا يشغلون سبارك في عملياتهم ، وفقًا لدراسة استقصائية أجريت في ديسمبر 2014 من قبل مزوِّد أداة جافا TypeSafe.

تأتي Spark 1.4 مع SparkR ، وهي واجهة برمجة تطبيقات (API) تسمح برامج لتقديم وظائف التحليل القائم على R إلى سبارك لتنفيذ. يمكن أن تأتي البيانات التي سيتم تحليلها من مجموعة متنوعة من المصادر ، بما في ذلك مستودعات البيانات Hadoop Hive ، أو نظام الملفات Hadoop ، أو مخزن أباتشي للباركيه ، أو تنسيق البيانات المنسق لـ JSON (JavaScript Object Notation).

"لأن تستخدم SparkR المحرك المتوازي لـ Spark في الأسفل ، وتستفيد العمليات من عدة نوى أو عدة أجهزة ، ويمكن أن تتوسع إلى أحجام البيانات أكبر بكثير من برامج R المستقلة ، ”كما أشار Wendell ، في مشاركة مدونة تعلن عن الإصدار.

الإصدار الجديد كما يأتي مع خط أنابيب التعلم الآلي الجاهز للإنتاج ، والذي تم تقديمه أولاً كميزة ألفا في Spark 1.2. التعلم الآلي هو النهج الآلي لأجهزة الكمبيوتر لاستنتاج المعلومات الجديدة من خلال استخدام قواعد محددة مسبقًا ومقدار كبير من البيانات. يأتي خط أنابيب التعلم الآلي مع مجموعة من الخوارزميات المستخدمة بشكل شائع لإعداد البيانات وتحويلها. ويعني الخروج من حالة alpha أن باستطاعة المطورين استخدام واجهة برمجة التطبيقات بأمان دون الحاجة إلى القلق من تغييرها في الإصدارات المستقبلية من Spark.

ويأتي الإصدار الجديد في الوقت المناسب لمؤتمر مؤتمر Spark Summit ، الذي يعقد الأسبوع المقبل في سان فرانسيسكو.

Top