موصى به, 2024

اختيار المحرر

يحاكي برنامج Google أدمغة البشر ورؤيتهم لالتقاط الصور تلقائيًا

الجميع يبØØ« عن هذه الأغنية الروسيةعناق الموت la câlin Ù…Ø

الجميع يبØØ« عن هذه الأغنية الروسيةعناق الموت la câlin Ù…Ø
Anonim

في المرة التالية التي تشعر فيها بالحيرة عند محاولة كتابة تعليق الصورة ، جرب Google.

طور عملاق البحث نظامًا للتعلم الآلي يمكنه كتابة تعليقات توضيحية وصور بدقة ، وفقًا لما ورد في مشاركة مدونة أبحاث Google

يمكن للابتكار أن يسهل البحث عن الصور على Google ، ويساعد الأشخاص المعاقين بصريًا على فهم محتوى الصور وتوفير نص بديل للصور عندما تكون اتصالات الإنترنت بطيئة.

في بحث منشور على arXiv ، الباحثون في Google Oriol Vinyals وصف كل من ألكساندر توشييف وسامي بنغيو ودوميترو إرهان كيف طوروا نظامًا للعرض النصي يسمى Neural Image Caption (NIC).

"اثنان من البيتزا يجلسان على قمة فرن الموقد" ، هو كيف يمكن لبرنامج Google كتب هذه الصورة.

تستند NIC على تقنيات من مجال رؤية الكمبيوتر ، والتي تسمح للآلات لرؤية العالم ، ومعالجة اللغة الطبيعية ، والتي تحاول جعل لغة بشرية ذات معنى لأجهزة الكمبيوتر.

استخدم الباحثون اثنين مختلفة أنواع الشبكات العصبية الاصطناعية ، وهي نماذج كمبيوتر مستوحاة من الناحية البيولوجية. قامت إحدى الشبكات بتشفير الصورة إلى تمثيل مضغوط ، في حين أن الشبكة الأخرى تولد جملة لوصفها.

كان هدف الباحثين هو تدريب النظام على إنتاج تسميات توضيحية طبيعية تستند إلى الأشياء التي يتعرف عليها في الصور .

نتائج تقييم التسميات التوضيحية لأداة Google ، مجمعة حسب التصنيف البشري.

أنتجت شركة NIC نتائج دقيقة مثل "مجموعة من الأشخاص الذين يتسوقون في سوق في الهواء الطلق" للحصول على صورة لسوق ما ، ولكن تم أيضًا عرض رقم من التسميات التوضيحية التي بها أخطاء بسيطة ، مثل صورة لثلاثة كلاب شاعتها ككلبين ، بالإضافة إلى أخطاء كبيرة ، بما في ذلك صورة لعلامة على جانب الطريق وصفتها بأنها ثلاجة.

ومع ذلك ، سجل نموذج NIC 59 في مجموعة بيانات معينة تكون فيها أحدث التقنيات هي 25 ، وتكون النتائج الأعلى أفضل ، وفقًا للباحثين ، الذين أضافوا أن البشر يسجلون حوالي 69. تم تقييم الأداء باستخدام خوارزمية ترتيب تقارن جودة النص الذي تولده آلة ث وكتب الباحثون "من الواضح من هذه التجارب أنه من الواضح من خلال هذه التجارب أنه مع زيادة حجم مجموعة البيانات المتاحة لوصف الصورة ، فإن أداء المناهج مثل NIC".

Top