Google ridică ștacheta în războiul A.I. Noul model în lucru, Gemini 1.5, folosește „MoE” și e gata să detroneze OpenAI

Google ridică ștacheta în războiul A.I., creând o competiție acerbă între marile companii tech și startup-uri, scrie Business Insider.

Gigantul tech, care este deținut de compania-mamă Alphabet, Inc., a anunțat că are în lucru un nou model de limbaj mare, sau LLM, numit Gemini 1.5.

Prima versiune a acestei tehnologii, Gemini 1.5 pro, va fi lansată în curând pentru teste timpurii, conform The Verge.

Vestea, care a fost anunțată într-o postare pe blogul companiei săptămâna trecută de CEO-ul Google și Alphabet, Sundar Pichai, și CEO-ul Google DeepMind, Demis Hassabis, vine la doar două luni după ce Google a dezvăluit originalul Gemini, care este menit să fie un răspuns la GPT-4 al OpenAI și la alte LLM-uri create de startup-uri și mari companii tech deopotrivă.

Gemini este un model A.I. multi-modal de nouă generație, ceea ce înseamnă că poate procesa mai mult de un tip de date, inclusiv o combinație de imagini, text, audio, video și limbaje de programare. Modelul este destinat să fie utilizat ca instrument de afaceri și asistent personal.

Gemini nu este prima incursiune a Google în A.I. – compania a efectuat, la începutul lunii februarie, o „curățenie” a diferitelor sale instrumente A.I. și le-a redenumit pe toate ca fiind Gemini.

În Gemini 1.5, îmbunătățirile aduse sunt salturi mari inclusiv peste ceea ce poate face Gemini originalul, intitulat „Ucigașul ChatGPT”.

Folosește un model „mixture of experts“

Gemini 1.5 promite să fie mai rapid și mai eficient datorită unei tehnici de specializare numită „mixture of experts”, cunoscută și sub numele de MoE. În loc să ruleze întregul model de fiecare dată când primește o interogare, MoE al lui Gemini poate folosi doar părțile relevante ale puterii sale de procesare pentru a genera un răspuns bun.

Există o fereastră de context mai mare

Puterea unui model A.I. este determinată de fereastra sa de context, care este alcătuită din blocurile utilizate pentru procesarea informațiilor. Acestea pot include cuvinte, imagini, videoclipuri, audio sau cod. În lumea A.I., aceste blocuri sunt cunoscute sub numele de token-uri.

Gemini-ul original putea rula până la 32.000 de token-uri. Capacitatea ferestrei de context a lui Gemini 1.5 Pro, însă, poate gestiona până la 1 milion de token-uri. Acest lucru înseamnă că noul LLM poate analiza mai multe date decât versiunea anterioară: 1 oră de video, 11 ore de audio, baze de cod cu peste 30.000 de linii de cod sau peste 700.000 de cuvinte, a afirmat postarea pe blog a Google.

Comparativ cu versiunile anterioare, are performanțe îmbunătățite în testarea noului model A.I. față de predecesorii săi.

Gemini 1.5 Pro a depășit predecesorul său în 87% din testele de referință pe care Google le folosește, a afirmat compania. În plus, în 99% din cazuri, Gemini 1.5 a reușit să găsească un mic fragment de text în blocuri de date de până la un milion de token-uri în timpul testelor cunoscute sub numele de evaluare „ace în carul cu fân”.

Gemini 1.5 devine, de asemenea, mai bun la generarea de răspunsuri bune din interogări super-lungi, fără ca un utilizator să fie nevoit să petreacă mult timp suplimentar ajustând interogările sale.


Google a declarat că testerii i-au furnizat lui Gemini 1.5 un manual de gramatică pentru limbajul obscur, iar LLM-ul a fost capabil să traducă textul în limba engleză la un nivel similar cu capacitatea umană.

Pe măsură ce A.I.-ul devine mai puternic, cresc și preocupările legate de rolul tehnologiei în probleme de siguranță, de la militarizare la fraudă.

Google afirmă că, în dezvoltarea lui Gemini 1.5, a trecut printr-o testare extensivă a eticii și siguranței, pentru a permite lansarea sa pe scară largă. Google a efectuat cercetări privind riscurile de siguranță ale A.I.-ului și a dezvoltat tehnici pentru a reduce răul potențial.

Citește și

Exit mobile version