Home تكنولوجيا Gemini وعملاء الذكاء الاصطناعي ومساعد Google الجديد في Pixel 4

Gemini وعملاء الذكاء الاصطناعي ومساعد Google الجديد في Pixel 4

0
Gemini وعملاء الذكاء الاصطناعي ومساعد Google الجديد في Pixel 4

في الآونة الأخيرة، تزايد الحديث عن عملاء الذكاء الاصطناعي الذين سيتولون القيادة وينفذون المهام على هاتفك، بما في ذلك النقرات والتمريرات الضرورية. يذكرني هذا الحديث عن إنشاء وكيل للذكاء الاصطناعي بـ “مساعد Google الجديد” الذي تم الإعلان عنه مع هاتف Pixel 4 في عام 2019.

في I/O 2019، قامت Google لأول مرة بعرض هذا المساعد من الجيل التالي. تم وصف معالجة الصوت على الجهاز بأنها “يبدو أن النقر لتنشيط هاتفك يبدو بطيئًا تقريبًا”.

وعرضت جوجل أوامر بسيطة مثل فتح التطبيقات والتحكم فيها، في حين كانت الفكرة الأكثر تعقيدًا هي “كيفية دمج المساعد في الجهاز، وجدولة المهام عبر التطبيقات”. ومن الأمثلة على ذلك تلقي رسالة نصية واردة، والرد عبر الصوت، ثم البحث عن صورة مصاحبة وإرسالها. يتم استكمال “النقل” و”تعدد المهام” في Gmail بإمكانية “البوصلة” باللغة الطبيعية.

يقوم هذا المساعد من الجيل التالي بتنشيط هاتفك على الفور بصوتك، والقيام بمهام متعددة عبر التطبيقات، وإكمال المهام المعقدة، بدون أي زمن استجابة تقريبًا.

تم إطلاق المساعد الجديد في وقت لاحق من ذلك العام على هاتف Pixel 4 وهو متاح على جميع أجهزة Google اللاحقة.

  • “خذ صورة شخصية.” ثم قل “شارك هذا مع رايان”.
  • في سلسلة الدردشة، قل “رد، أنا في طريقي”.
  • “ابحث عن دروس اليوغا على اليوتيوب.” ثم قل “شارك هذا مع أمي”.
  • “أرني رسائل البريد الإلكتروني التي أرسلها مايكل في Gmail.”
  • بمجرد فتح تطبيق صور Google، قل “عرض صور نيويورك”. ثم قل “الناس في سنترال بارك”.
  • عندما يكون موقع الوصفات مفتوحًا في Chrome، قل “ابحث عن كعك الشوكولاتة بالمكسرات”.
  • بمجرد فتح تطبيق السفر، قل “فنادق في باريس”.

هذه هي الفكرة الأساسية وراء عملاء الذكاء الاصطناعي. خلال مكالمة أرباح Alphabet الشهر الماضي، سُئل ساندر بيتشاي عن تأثير الذكاء الاصطناعي التوليدي على المساعد. وقال إنه سيسمح لمساعد جوجل “بالعمل كوكيل مع مرور الوقت” و”الذهاب إلى ما هو أبعد من الردود ومتابعة المستخدمين”.

وفق معلومة تعمل OpenAI هذا الأسبوع على وكيل ChatGPT:

“مثل هذه الطلبات يمكن أن تدفع الوكيل إلى إجراء النقرات وحركات المؤشر وكتابة النص وغيرها من الإجراءات التي يتخذها البشر أثناء العمل مع تطبيقات مختلفة، وفقًا لشخص مطلع على هذا الجهد.”

بعد ذلك، يتم تدريب الأرنب باستخدام نموذج العمل الكبير (LAM) الخاص به لإكمال مجموعة من المهام باستخدام واجهات الهاتف المحمول وسطح المكتب الموجودة.

بدا الإصدار الذي قدمه Google Assistant في عام 2019 مبرمجًا مسبقًا للغاية، مما يتطلب من المستخدمين التدرب على عبارة معينة بدلاً من التحدث بشكل طبيعي ثم اكتشاف الإجراء تلقائيًا. في ذلك الوقت، قالت جوجل إن المساعد “يعمل بسلاسة مع تطبيقات متعددة” وأنه “سيستمر في تحسين عمليات تكامل التطبيقات بمرور الوقت”. على حد علمنا، لم يحدث ذلك أبدًا، في حين أن بعض الإمكانيات التي أظهرتها جوجل لم تعد تعمل بسبب تغير التطبيق. يمكن للوكيل الحقيقي أن يتكيف بدلاً من الاعتماد على الظروف الثابتة.

من السهل أن نرى كيف يمكن لحاملي ماجستير إدارة الأعمال تحسين هذا الأمر، من خلال بحث Google العام الماضي “يتيح التفاعل التحادثي مع واجهة مستخدم الهاتف المحمول باستخدام نماذج لغوية كبيرة“.

أثبتت أبحاث Google أن أسلوبهم “يمكنه فهم الغرض من واجهة مستخدم الهاتف المحمول بسرعة”:

ومن المثير للاهتمام أننا لاحظنا أن الحاصلين على ماجستير إدارة الأعمال استخدموا معرفتهم السابقة لتقليل المعلومات غير المقدمة في واجهة المستخدم عند إنشاء الملخصات. في المثال أدناه، افترضت LLM أن محطات مترو الأنفاق تنتمي إلى نظام مترو أنفاق لندن، بينما لم تحتوي واجهة مستخدم الإدخال على هذه المعلومات.

ويمكنه أيضًا الإجابة على الأسئلة المتعلقة بالمحتوى الذي يظهر في واجهة المستخدم والتحكم فيه بعد تقديم مطالبة باللغة الطبيعية.

سيكون Gemini AI Agent لجهاز Android الخاص بك بمثابة تطور طبيعي لجهود Google الأولى، والتي لم يتم اعتبارها مطلقًا كمساعد شامل يقدم طريقة جديدة لاستخدام هاتفك. ومع ذلك، يمكن لمساعد Gboard نسخ الرد على الرسالة عبر الكتابة الصوتية وقول “إرسال” مباشرةً.

يبدو أن المحاولة السابقة تشير إلى أن شركة جوجل كانت سابقة لأوانها في طرح فكرة وتفتقر إلى التكنولوجيا اللازمة. والآن بعد أن وصلنا إلى هذا الحد، سيكون من الحكمة أن تعطي جوجل الأولوية لهذا الجهد حتى تتمكن من قيادة المجال بدلاً من اللحاق بالركب.

LEAVE A REPLY

Please enter your comment!
Please enter your name here