• Apple AI propune noul benchmark GSM-Symbolic pentru a evalua raționamentul AI.
  • Apple identifică probleme în raționamentul modelelor de limbaj mari (LLM).
  • Testele arată că mici modificări în formularea întrebărilor afectează răspunsurile.
  • Fragilitatea actualului raționament matematic devine evidentă cu creșterea complexității.
  • Cercetătorii caută soluții pentru a îmbunătăți fiabilitatea modelelor LLM.

Modelele de AI, precum Meta și OpenAI, au dificultăți semnificative cu privire la raționamentul inteligenței artificiale. Aici intră în joc Apple, care propune un nou test numit GSM-Symbolic.

Scopul? Evaluarea logicii sistemului.

Partea interesantă? Chiar și mici schimbări în formularea unei întrebări pot face ca aceste modele să ofere răspunsuri complet diferite.

Recomandări

TRUMP, NEMULȚUMIT DE ROL
BAZA ONU, ATACATĂ
ANATOMIA MITEI
ȘTII DE VREME?
UNDE MĂNÂNCI AZI?
ZELENSKI ACUZĂ NORDUL

Cum pot aceste îmbunătățiri ajuta utilizatorii să obțină răspunsuri mai fiabile?

E clar că suntem în momentul în care tehnologia avansează. Având cu cât mai multe date, se pune problema de cum le expun pe tipare. 

Pentru că tehnologia nu e magie și nu e nici de cum o superputere supranaturală, este practic analiza de date și probabilitatea de a se încadra într-un tipar sau altul.

Cum ne ajută? Evident, cu cât mai mult context și cu cât mai multă claritate în cum expunem interacțiunea cu sistemele AI, atunci inclusiv răspunsurile vor fi din ce în ce mai veridice. 

Pentru că e foarte bine cunoscută în industria de AI problema halucinațiilor. Când AI-ul nu știe să zic că nu știu, și dă un răspuns care de multe ori nu este valid”, a declarat Cosmin Gheorghilă, expert în tehnologie, pentru Aleph News.

Care crezi că sunt cele mai mari provocări în îmbunătățirea raționamentului modelelor de limbaj mari?

„În primul rând, raționamentul. În contextul tehnologic e un concept foarte abstract și, din punctul meu de vedere, nu există și nici nu cred că va exista.

Dar în momentul în care discutăm de precizie tehnologică, atunci e foarte important să avem astfel de mecanisme prin care să ne asigurăm că răspunsul e cel pe care îl așteptăm”, a declarat Cosmin Gheorghilă, expert în tehnologie, pentru Aleph News.

Citește și