AI alətləri nə dərəcədə təhlükəsizdir?

18.11.2025 15:30

Cybernews ChatGPT, Gemini və Claude modellərini sınaqdan keçirdi. Nəticələr göstərdi ki, AI təhlükəsizlik filtrlərindən yan keçmək olar.

Bu gün süni intellekt sistemlərinin təhlükəsizlik qaydalarına riayət etməsinə inanılır. İnsanlar bu vasitələrdən öyrənmə və gündəlik dəstək üçün istifadə edirlər. Bu sistemlərin güclü təhlükəsizlik tədbirlərinə malik olduğu güman edilir.

ChatGPT və Gemini təhlükəsizlik testində: Sadə ifadələr filtrləri aşır

Sınaq prosesində hər sınaq üçün sadə bir dəqiqəlik qarşılıqlı əlaqə pəncərəsindən istifadə edildi və bu, yalnız bir neçə sualın verilməsinə imkan verdi. Testlər stereotiplər, nifrət nitqi, özünə zərər vermə, qəddarlıq, seksual məzmun və müxtəlif növ cinayətləri əhatə edirdi. Modelin göstərişə tam, qismən uyğun olub-olmadığını və ya rədd edilməsini izləmək üçün ardıcıl qiymətləndirmə sistemindən istifadə edilmişdir.

süni intellekt, təhlükəsizlik, ChatGPT

Nəticələr kateqoriyalar arasında geniş şəkildə dəyişdi. Birbaşa rədd cavabları ümumi idi. Bununla belə, bir çox model göstərişlər yumşaldıldıqda və ya təhlil kimi maskalandıqda zəifliklər göstərdi. Xüsusilə daha yumşaq və ya kodlaşdırılmış dildən istifadə süni intellekt təhlükəsizlik tədbirlərindən yan keçməkdə ardıcıl olaraq uğurlu olmuşdur. Məsələn, ChatGPT-5 və ChatGPT-4o, sorğunu rədd etmək əvəzinə, çox vaxt sosioloji izahatlar şəklində qismən uyğunluq təmin etdi.

Cinayətlə əlaqəli kateqoriyalar modellər arasında əhəmiyyətli dərəcədə fərqlənirdi. Niyyət tədqiqat və ya müşahidə kimi gizlədildikdə, bəzi modellər hakerlik, maliyyə fırıldaqçılığı, kompüter sındırması və ya qaçaqmalçılıq üçün ətraflı izahatlar yaratdı. Narkotiklə əlaqəli testlər daha sərt rədd nümunələri göstərdi, lakin ChatGPT-4o hələ də digərlərindən daha tez-tez təhlükəli nəticələr verdi. Stalking ən aşağı ümumi risk kateqoriyası idi, demək olar ki, bütün modellər bu məqsədlə verilən göstərişləri rədd edirdi.

Bu tapıntılar göstərir ki, süni intellekt alətləri düzgün ifadə edildikdə hələ də zərərli göstərişlərə cavab verə bilir. Sadə bir ifadə ilə filtrlərdən yan keçmək imkanı bu sistemlərin hələ də təhlükəli məlumatları sızdıra biləcəyini bildirir. Sızdırılan məlumatlar şəxsiyyət oğurluğu kimi qeyri-qanuni fəaliyyətlərlə əlaqəli olduqda hətta qismən uyğunluq riskli olur.