- Harvard publică un set de date cu 1 milion de cărți.
- Proiectul este finanțat de Microsoft și OpenAI.
- Cărțile provin din domeniul public și Google Books.
Inteligența Artificială se va antrena mai ușor de acum înainte. Harvard lansează o inițiativă majoră pentru Inteligența Artificială și scoate gratuit un set de date cu aproape 1 milion de cărți.
Advertisment
Ce include setul de date publicat de Harvard?
Setul de date conține aproape 1 milion de cărți din domeniul public, scanate prin Google Books. Include opere clasice precum cele ale lui Shakespeare, Charles Dickens și Dante, dar și materiale obscure, cum ar fi manuale de matematică cehă și dicționare galeze. Este de cinci ori mai mare decât faimosul set Books3, folosit pentru modele AI precum Llama. Scopul este democratizarea accesului la date pentru cercetători și companii mici de AI.
Cine finanțează proiectul și de ce?
Proiectul este finanțat de Microsoft și OpenAI prin Harvard Institutional Data Initiative. Greg Leppert, directorul executiv al inițiativei, spune că setul ajută la „nivelarea terenului de joc” pentru companiile mai mici. Microsoft, prin Burton Davis, susține că astfel de proiecte creează „piscine de date” accesibile și sigure pentru public. Totuși, companii precum OpenAI consideră că aceste seturi trebuie combinate cu date licențiate pentru diferențierea modelelor.
Recomandări
Cum influențează proiectele similare industria A.I.?
Proiecte precum Common Corpus din Franța, susținut de Ministerul Culturii, oferă 3-4 milioane de cărți și materiale periodice. Acesta a fost descărcat de peste 60.000 de ori doar pe Hugging Face. Startup-uri ca Spawning creează seturi de date cu imagini din domeniul public. Critici precum Ed Newton-Rex avertizează că, dacă aceste date nu înlocuiesc complet materialele protejate de copyright, ele vor ajuta în mare parte companiile mari de AI.
Citește și
- Zboruri sustenabile. Ce avantaje oferă dirijabilele în comparație cu avioanele clasice
- Alte trei avioane F-16, cumpărate de România, au ajuns la Câmpia Turzii
- Australia taxează giganții media. Cât au de plătit aceștia și care sunt motivele impozitării lor
Partenerii noștri