أخبار التكنولوجيا

يمكن لروبوتات الدردشة أن “تهلوس” في كثير من الأحيان أكثر مما يدركه الكثيرون

وعندما طرحت جوجل روبوت محادثة مشابهًا بعد عدة أسابيع، تم ذلك لقد أطلق هراءً حول تلسكوب جيمس ويب. في اليوم التالي، قدم برنامج Bing chatbot الجديد من Microsoft جميع أنواع المعلومات الزائفة حول Gap والحياة الليلية المكسيكية والمغنية Billie Eilish. بعد ذلك، في شهر مارس، استشهد موقع ChatGPT بستة قضايا قضائية وهمية أثناء كتابة ملخص قانوني من 10 صفحات قدمه أحد المحامين إلى قاضٍ فيدرالي في مانهاتن.

والآن تحاول شركة ناشئة جديدة تسمى Vectara، أسسها موظفون سابقون في Google، معرفة عدد المرات التي تنحرف فيها برامج الدردشة الآلية عن الحقيقة. وتشير تقديرات أبحاث الشركة إلى أنه حتى في المواقف المصممة لمنع حدوث ذلك، فإن روبوتات الدردشة تخترع المعلومات بنسبة 3% على الأقل من الوقت – وبنسبة تصل إلى 27%.

يطلق الخبراء على سلوك روبوت الدردشة هذا اسم “الهلوسة”. قد لا يمثل ذلك مشكلة بالنسبة للأشخاص الذين يستخدمون برامج الدردشة الآلية على أجهزة الكمبيوتر الشخصية الخاصة بهم، ولكنها مشكلة خطيرة لأي شخص يستخدم هذه التكنولوجيا مع وثائق المحكمة أو المعلومات الطبية أو بيانات العمل الحساسة.

نظرًا لأن روبوتات الدردشة هذه يمكنها الاستجابة لأي طلب تقريبًا بعدد غير محدود من الطرق، فلا توجد طريقة لتحديد عدد مرات الهلوسة بشكل نهائي. وقال سايمون هيوز، الباحث في فيكتارا الذي قاد المشروع: “عليك أن تنظر إلى كل المعلومات الموجودة في العالم”.

طلب الدكتور هيوز وفريقه من هذه الأنظمة أداء مهمة واحدة مباشرة يمكن التحقق منها بسهولة: تلخيص المقالات الإخبارية. وحتى ذلك الحين، استمرت روبوتات الدردشة في اختراع المعلومات.

وقال عمرو عوض الله، الرئيس التنفيذي لشركة فيكتارا والمسؤول التنفيذي السابق في جوجل: “لقد قدمنا ​​​​للنظام ما بين 10 إلى 20 حقيقة وطلبنا ملخصًا لتلك الحقائق”. “إن استمرار النظام في ارتكاب الأخطاء يعد مشكلة أساسية.”

ويرى الباحثون أنه عندما تقوم روبوتات الدردشة هذه بمهام أخرى – تتجاوز مجرد التلخيص – قد تكون معدلات الهلوسة أعلى.

وأظهرت أبحاثهم أيضًا أن معدلات الهلوسة تختلف بشكل كبير بين شركات الذكاء الاصطناعي الرائدة. حصلت تقنيات OpenAI على أدنى معدل، حوالي 3 بالمائة. أما أنظمة شركة Meta، التي تمتلك Facebook وInstagram، فقد تراوحت حول 5 بالمائة. أما نظام Claude 2 الذي تقدمه شركة Anthropic، وهي شركة منافسة لـ OpenAI ومقرها أيضًا في سان فرانسيسكو، فقد تجاوز نسبة 8%. وحصل نظام جوجل، Palm chat، على أعلى معدل بنسبة 27 بالمائة.

وقالت سالي ألدوس، المتحدثة باسم الأنثروبيك: “إن جعل أنظمتنا مفيدة وصادقة وغير ضارة، بما في ذلك تجنب الهلوسة، هو أحد أهدافنا الأساسية كشركة”.

رفضت جوجل التعليق، ولم تستجب OpenAI وMeta على الفور لطلبات التعليق.

من خلال هذا البحث، يريد الدكتور هيوز والسيد عوض الله أن يُظهروا للناس أنه يجب عليهم توخي الحذر من المعلومات التي تأتي من روبوتات الدردشة وحتى الخدمة التي تبيعها Vectara للشركات. تقدم العديد من الشركات الآن هذا النوع من التكنولوجيا للاستخدام التجاري.

يقع مقر شركة Vectara في بالو ألتو، كاليفورنيا، وهي شركة ناشئة مكونة من 30 شخصًا ومدعومة بتمويل أولي بقيمة 28.5 مليون دولار. ويعمل أحد مؤسسيها، أمين أحمد، وهو باحث سابق في مجال الذكاء الاصطناعي في جوجل، مع هذا النوع من التكنولوجيا منذ عام 2017، عندما تم احتضانها داخل جوجل وحفنة من الشركات الأخرى.

بقدر ما يمكن لروبوت البحث Bing من Microsoft استرداد المعلومات من الإنترنت المفتوح، يمكن لخدمة Vectara استرداد المعلومات من المجموعة الخاصة للشركة من رسائل البريد الإلكتروني والمستندات والملفات الأخرى.

ويأمل الباحثون أيضًا أن تساعد أساليبهم – التي يشاركونها علنًا وسيستمرون في تحديثها – في تحفيز الجهود عبر الصناعة لتقليل الهلوسة. وتعمل شركة OpenAI وGoogle وآخرون على تقليل المشكلة من خلال مجموعة متنوعة من التقنيات، على الرغم من أنه ليس من الواضح ما إذا كان بإمكانهم القضاء على المشكلة.

وقال فيليب لابان، الباحث في شركة Salesforce الذي استكشف هذا النوع من التكنولوجيا منذ فترة طويلة: “إن التشبيه الجيد هو السيارة ذاتية القيادة”. “لا يمكنك منع السيارة ذاتية القيادة من الاصطدام. ولكن يمكنك محاولة التأكد من أنها أكثر أمانًا من السائق البشري.

يتم تشغيل Chatbots مثل ChatGPT بواسطة تقنية تسمى نموذج اللغة الكبير، أو LLM، والتي تتعلم مهاراتها من خلال تحليل كميات هائلة من النصوص الرقمية، بما في ذلك الكتب ومقالات Wikipedia وسجلات الدردشة عبر الإنترنت. من خلال تحديد الأنماط في كل تلك البيانات، يتعلم LLM القيام بشيء واحد على وجه الخصوص: تخمين الكلمة التالية في سلسلة من الكلمات.

ولأن الإنترنت مليء بالمعلومات غير الصحيحة، فإن هذه الأنظمة تكرر نفس الأكاذيب. كما أنها تعتمد على الاحتمالات: ما هو الاحتمال الرياضي أن تكون الكلمة التالية “كاتب مسرحي”؟ من وقت لآخر، يخمنون بشكل غير صحيح.

يوضح البحث الجديد من Vectara كيف يمكن أن يحدث هذا. عند تلخيص المقالات الإخبارية، لا تكرر روبوتات الدردشة الأكاذيب من أجزاء أخرى من الإنترنت. إنهم فقط يخطئون في التلخيص.

على سبيل المثال، طلب الباحثون من نموذج اللغة الكبير الخاص بجوجل، وهو Palm chat، تلخيص هذا المقطع القصير من مقال إخباري:

تم العثور على النباتات أثناء تفتيش مستودع بالقرب من أشبورن صباح يوم السبت. وقالت الشرطة إنهم كانوا في “منزل نمو متقن”. وتم القبض على رجل في أواخر الأربعينيات من عمره في مكان الحادث.

لقد أعطت هذا الملخص، واخترعت تمامًا قيمة للنباتات التي كان الرجل يزرعها، وافترضت – ربما بشكل غير صحيح – أنها نباتات القنب:

ألقت الشرطة القبض على رجل في أواخر الأربعينيات من عمره بعد العثور على نباتات القنب بقيمة تقدر بنحو 100 ألف جنيه إسترليني في مستودع بالقرب من أشبورن.

توضح هذه الظاهرة أيضًا لماذا يمكن لأداة مثل Bing chatbot من Microsoft أن تخطئ في الأمور أثناء استردادها للمعلومات من الإنترنت. إذا طرحت سؤالاً على برنامج الدردشة الآلي، فيمكنه الاتصال بمحرك بحث Microsoft Bing وإجراء بحث على الإنترنت. لكن ليس لديها طريقة لتحديد الإجابة الصحيحة. فهو يلتقط نتائج البحث على الإنترنت ويلخصها لك.

في بعض الأحيان، يكون هذا الملخص معيبًا جدًا. ستستشهد بعض الروبوتات بعناوين إنترنت مكونة بالكامل.

لقد طورت شركات مثل OpenAI وGoogle وMicrosoft طرقًا لتحسين دقة تقنياتها. تحاول شركة OpenAI، على سبيل المثال، تحسين تقنيتها من خلال ردود الفعل من المختبرين البشريين، الذين يقيمون استجابات برنامج الدردشة الآلي، ويفصلون الإجابات المفيدة والصادقة عن الإجابات غير المفيدة. بعد ذلك، وباستخدام تقنية تسمى التعلم المعزز، يقضي النظام أسابيع في تحليل التقييمات لفهم ما هي حقيقة وما هو خيال بشكل أفضل.

لكن الباحثين يحذرون من أن هلوسة برنامج الدردشة الآلية ليست مشكلة سهلة الحل. نظرًا لأن روبوتات الدردشة تتعلم من أنماط البيانات وتعمل وفقًا للاحتمالات، فإنها تتصرف بطرق غير مرغوب فيها في بعض الوقت على الأقل.

لتحديد عدد المرات التي تهلوس فيها روبوتات الدردشة عند تلخيص المقالات الإخبارية، استخدم باحثو Vectara نموذجًا لغويًا كبيرًا آخر للتحقق من دقة كل ملخص. وكانت هذه هي الطريقة الوحيدة للتحقق بكفاءة من هذا العدد الهائل من الملخصات.

لكن جيمس زو، أستاذ علوم الكمبيوتر في جامعة ستانفورد، قال إن هذه الطريقة تأتي مع تحذير. يمكن أيضًا أن يرتكب نموذج اللغة الذي يقوم بالفحص أخطاء.

وقال: “يمكن خداع كاشف الهلوسة، أو الهلوسة نفسها”.

الصوت من إنتاج كيت وينسلت.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى