أنثروبيك تكشف عن تقنية ثورية لمكافحة إساءة استخدام الذكاء الاصطناعي
كشفت شركة أنثروبيك الناشئة في مجال الذكاء الاصطناعي عن تقنية جديدة تهدف إلى منع المستخدمين من إساءة استخدام نماذجها، واستخراج محتوى ضار منها، في خطوة تعكس تسابق كبرى الشركات التقنية لتعزيز معايير الأمان في هذا المجال المتطور تسعى الشركة من خلال هذه التقنية إلى مواجهة التحديات المتزايدة التي يطرحها الاستخدام الخاطئ لتقنيات الذكاء الاصطناعي، مما يحمي المستخدمين والمجتمعات من المخاطر المرتبطة بالتكنولوجيا المتقدمة.
وأوضحت الشركة في ورقة بحثية أنها طوّرت نظامًا جديدًا يُعرف باسم “المُصنّفات الدستورية”، وهو طبقة حماية تعمل فوق نماذج اللغة الكبيرة مثل نموذج Claude التابع لها يُتيح هذا النظام مراقبة المدخلات والمخرجات في النماذج، بهدف منع إنتاج أي محتوى غير آمن أو ضار تُعد هذه الخطوة جزءًا من الجهود المستمرة من قبل الشركات في صناعة الذكاء الاصطناعي لمواكبة التحديات الأمنية المتزايدة، خاصة مع تنامي التهديدات الأمنية في هذا المجال.
يأتي هذا التطوير في وقت حساس وسط تزايد المخاوف من ظاهرة “اختراق الذكاء الاصطناعي” (Jailbreaking)، والتي تتضمن محاولات لاستغلال النماذج لإنتاج معلومات غير قانونية أو خطِرة أحد أبرز الأمثلة على هذه المخاوف هو إمكانية استخدام النماذج لإنتاج إرشادات لتصنيع أسلحة كيميائية أو تقنيات تهدد الأمن العام ومع تزايد هذه التهديدات، تتسابق الشركات لإيجاد حلول تحمي نماذجها من مثل هذه الاستغلالات، مما يساعدها في تجنب التدقيق التنظيمي، وكسب ثقة المؤسسات والمستخدمين.
وقد سبق أن طرحت شركات كبرى مثل مايكروسوفت وميتاه تقنيات مشابهة، حيث قدمت مايكروسوفت تقنية “الدروع التوجيهية Prompt Shields” في مارس الماضي، بينما أطلقت ميتا نموذج “حارس التوجيه Prompt Guard” في يوليو 2023 ومع ذلك، لم تكن هذه التقنيات محصنة تمامًا ضد الاختراقات، ما دفع الشركات إلى إجراء تحسينات أمنية لاحقًا لتعزيز الحماية ويعكس هذا السباق بين الشركات الحذر المتزايد في مجال الذكاء الاصطناعي، حيث تسعى كل شركة إلى توفير حلول مبتكرة لضمان أمان الاستخدام.
وأشار مرينانك شارما، أحد أعضاء الفريق التقني في أنثروبيك، إلى أن “الدافع الرئيسي وراء تطوير النظام كان التعامل مع الأخطار الشديدة، مثل تصنيع الأسلحة الكيميائية، ولكن الأهم هو القدرة على التكيف والاستجابة السريعة للتهديدات الجديدة” وتابع شارما أن هذه التقنية تم تصميمها لتكون مرنة وقابلة للتعديل بما يتناسب مع التحديات الأمنية المتجددة.
ورغم أن أنثروبيك لم تدمج هذه التقنية في نماذج Claude الحالية، إلا أنها ألمحت إلى إمكانية استخدامها في المستقبل مع نماذج أكثر تطورًا وأعلى خطورة يعتمد النظام الجديد على “دستور” من القواعد التي تحدد المحتوى المسموح والمحظور، مما يتيح للذكاء الاصطناعي أن يتفاعل بشكل آمن وفقًا لمتطلبات الأمان كما يمكن تعديل هذه القواعد لتناسب أنواع مختلفة من المواد الخطِرة التي قد يحاول المستخدمون استخراجها.
وتُعد محاولات اختراق النماذج أمرًا معقدًا، حيث يلجأ البعض إلى أساليب متقدمة مثل إعادة صياغة الطلبات بطريقة غير مألوفة أو مطالبة النموذج بالتصرف كشخصية خيالية لتجاوز قيود الأمان ومن أجل ضمان فاعلية النظام، قدمت أنثروبيك مكافآت تصل إلى 15,000 دولار للباحثين الأمنيين الذين يتمكنون من اختراق النموذج في إطار برنامج “مكافآت اكتشاف الثغرات Bug Bounty” ويهدف هذا البرنامج إلى تشجيع الباحثين على إيجاد الثغرات الأمنية والعمل على سدها.
وفقًا لنتائج الاختبارات التي أُجريت على نموذج Claude 35 Sonnet، فقد أثبتت التقنية الأمنية الجديدة فعاليتها، حيث نجح النموذج في رفض أكثر من 95% من محاولات الاختراق، مقارنة بنسبة قدرها 14% فقط عند عدم تفعيل هذه التقنية تُظهر هذه النتائج أن النظام الجديد يشكل خطوة كبيرة نحو تحسين الأمان وحماية النماذج من الاستخدامات الضارة.
لكن، كما هو الحال مع أي تقنية جديدة، فإن هناك تحديات يجب التعامل معها وتحاول شركات الذكاء الاصطناعي تحقيق توازن دقيق بين الأمان وكفاءة النماذج فبينما تهدف إجراءات المراقبة الصارمة إلى منع الاستخدامات الضارة، قد تؤدي هذه الإجراءات أحيانًا إلى رفض الطلبات المشروعة وقد واجهت نماذج مثل Gemini و Llama 2 مشكلات مشابهة عند إطلاقها الأولي، حيث تم رفض بعض الطلبات التي لم تكن ضارة ورغم ذلك، أكدت أنثروبيك أن نظامها الجديد أدى إلى زيادة طفيفة فقط في معدلات الرفض غير الضرورية، مما يضمن استجابة أكثر دقة.
وتتضمن إضافة هذه الطبقة الأمنية تكاليف تشغيلية إضافية، حيث أشارت الشركة إلى أن تشغيل هذه التقنية يزيد استهلاك الموارد الحاسوبية بنسبة 24% وهذا يُشكل تحديًا كبيرًا في ظل ارتفاع تكاليف تشغيل نماذج الذكاء الاصطناعي، لكن يبدو أن هذا الاستثمار في الأمان يعد ضرورة للحفاظ على نزاهة وأمان النماذج على المدى الطويل.
إن تطور هذه التقنيات يعكس التزام الشركات بتحقيق بيئة آمنة للذكاء الاصطناعي، حيث أصبح الأمان جزءًا لا يتجزأ من عملية تطوير هذه الأنظمة.