Cerebras Systems stabilisce il record per i più grandi modelli di intelligenza artificiale mai addestrati su un singolo dispositivo, col nuovo Cerebras WSE-2
La Cerebras Systems (qui per maggiori informazioni), è un’azienda pioniere nel calcolo dell’intelligenza artificiale (AI) ad alte prestazioni. Oggi, ha annunciato per la prima volta in assoluto, la capacità di addestrare modelli con un massimo di 20 miliardi di parametri su un singolo sistema CS-2. Un’impresa impossibile su nessun altro singolo dispositivo. Consentendo a un singolo CS-2 di addestrare questi modelli, Cerebras riduce il tempo di ingegneria del sistema necessario per eseguire grandi modelli di elaborazione del linguaggio naturale (NLP) da mesi a minuti. Elimina anche uno degli aspetti più dolorosi della NLP, ovvero il partizionamento del modello tra centinaia o migliaia di piccole unità di elaborazione grafica (GPU).
Dichiarazioni
Di seguito sono riportate le prime dichiarazioni relative al nuovo Cerebars WSE-2.
In NLP, i modelli più grandi si dimostrano più accurati. Ma tradizionalmente, solo poche aziende molto selezionate avevano le risorse e l’esperienza necessarie per svolgere il lavoro meticoloso di scomporre questi modelli di grandi dimensioni e diffonderli su centinaia o migliaia di unità di elaborazione grafica,
ha affermato Andrew Feldman, CEO e co-fondatore di Cerebras Systems. Che aggiunge
Di conseguenza, solo pochissime aziende potevano addestrare modelli NLP di grandi dimensioni. Era troppo costoso, dispendioso in termini di tempo e inaccessibile per il resto del settore. Oggi siamo orgogliosi di democratizzare l’accesso a GPT-3 1.3B, GPT-J 6B , GPT-3 13B e GPT-NeoX 20B. Consentendo all’intero ecosistema di intelligenza artificiale di configurare modelli di grandi dimensioni in pochi minuti e addestrarli su un singolo CS-2.
Kim Branson, SVP di Intelligenza Artificiale e Machine Learning presso GSK, afferma che
GSK genera set di dati estremamente grandi attraverso la sua ricerca genomica e genetica e questi set di dati richiedono nuove apparecchiature per condurre l’apprendimento automatico.
Ha aggiunto poi
Cerebras CS-2 è un componente fondamentale che consente a GSK di addestrare modelli linguistici utilizzando set di dati biologici su una scala e dimensioni precedentemente irraggiungibili. Questi modelli fondamentali costituiscono la base di molti dei nostri sistemi di intelligenza artificiale e svolgono un ruolo vitale nella scoperta di trasformazioni medicinali.
Funzionamento del nuovo Cerebras WSE-2
Queste prime capacità al mondo sono rese possibili da una combinazione delle dimensioni e delle risorse di calcolo disponibili nel Cerebras Wafer Scale Engine-2 (WSE-2). Ed ovviamente anche dalle estensioni dell’architettura del software Weight Streaming disponibili tramite il rilascio della versione R1.4 della piattaforma software Cerebras , CSoft. Quando un modello si adatta a un singolo processore, l’addestramento all’IA è facile. Ma quando un modello ha più parametri di quanti possono stare in memoria, o un livello richiede più elaborazione di quanto un singolo processore possa gestire, la complessità esplode. Il modello deve essere suddiviso e distribuito su centinaia o migliaia di GPU. Questo processo è doloroso e spesso richiede mesi per essere completato. A peggiorare le cose, il processo è unico per ogni coppia di cluster di calcolo di rete, quindi il lavoro non è portabile su cluster di calcolo diversi o su reti neurali. È interamente su misura.
Processore più grande mai costruito al mondo
Il Cerebras WSE-2 è il processore più grande mai costruito. È 56 volte più grande, ha 2,55 trilioni di transistor in più e ha 100 volte più core di elaborazione della GPU più grande. Le dimensioni e le risorse di calcolo del WSE-2 consentono a ogni livello anche delle reti neurali più grandi di adattarsi. L’architettura Cerebras Weight Streaming disaggrega la memoria e il calcolo consentendo alla memoria (utilizzata per archiviare i parametri) di crescere separatamente dal calcolo. Quindi un singolo CS-2 può supportare modelli con centinaia di miliardi, anche trilioni di parametri.
Dettagli
Le unità di elaborazione grafica, d’altra parte, hanno una quantità fissa di memoria per GPU. Se il modello richiede più parametri di quelli che si adattano alla memoria, è necessario acquistare più processori grafici e quindi distribuire il lavoro su più GPU. Il risultato è un’esplosione di complessità. La soluzione Cerebras è molto più semplice ed elegante. Disaggregando il calcolo dalla memoria, l’architettura Weight Streaming consente il supporto di modelli con un numero qualsiasi di parametri da eseguire su un singolo CS-2.
Alimentato dalla capacità di calcolo del WSE-2 e dall’eleganza architettonica dell’architettura Weight Streaming, Cerebras è in grado di supportare, su un unico sistema, le più grandi reti NLP. Supportando queste reti su un unico CS-2, Cerebras riduce i tempi di configurazione a pochi minuti e consente la portabilità del modello. È possibile passare da GPT-J a GPT-Neo, ad esempio, con pochi tasti, un’attività che richiederebbe mesi di tempo per la progettazione su un cluster di centinaia di GPU.
Clienti
Con clienti in Nord America, Asia, Europa e Medio Oriente, Cerebras offre soluzioni di intelligenza artificiale leader del settore a un elenco crescente di clienti nei segmenti Enterprise, Government e High Performance Computing (HPC). Tra cui GlaxoSmithKline, AstraZeneca, TotalEnergies, nference, Argonne National Laboratory, Lawrence Livermore National Laboratory, Pittsburgh Supercomputing Center. Ed ancora Leibniz Supercomputing Centre, National Center for Supercomputing Applications, Edinburgh Parallel Computing Center (EPCC), National Energy Technology Laboratory e Tokyo Electron Devices.
Per ulteriori informazioni sulla piattaforma software Cerebras, visitare il sito.
E voi? cosa ne pensate di questo nuovo Cerebras WSE-2? diteci la vostra qui sotto nei commenti e restate connessi su tuttoteK, per le ultime novità dal mondo della tecnologia (e non solo!).
Lascia un commento