Un breve sguardo al core AMD Steamroller

Hot Chips 24: grandi numeri, plausibili ma dettagli vaghi

A Hot Chips 24, AMD Mark Papermaster ha tenuto un discorso programmatico fornendoci alcuni bocconcini tecnici. Diamo un’occhiata a due di questi, in particolare, il core Steamroller e librerie ad alta densità. C’era molto di più nel discorso, ma dal momento che la parola d’ordine è marketing, e affini correlati, vi risparmierò un rimaneggiamento di esso. L’unica frase che si ha realmente il bisogno di sapere è “Computing Surround”, termine di AMD per il calcolo di tutto intorno a te, si spera in modo trasparente. Aspettiamo di vedere Computing Surround utilizzato molto in messaggistica futura di AMD.

Steamroller sembra preservare cose interessanti. Se vi ricordate, i core AMD sono chiamati Bulldozer, Piledriver, Steamroller, ed Excavator. Bulldozer è sul mercato nelle forme FX e Opteron , e Piledriver è venuto fuori da Trinity. La variante successiva è Steamroller, e che non uscirà fino a quando Kaveri o i chips Opteron/FX del 2013 non rompono la copertura. Bulldozer è stato un cambiamento radicale architettonico dallo status quo, la condivisione del front-end, condivisa FPU, e due distinte unità integer che sono stati in qualche modo chiamati “core”. Piledriver ha ripulito un sacco di ciò che ha reso Bulldozer, ma i problemi fondamentali del Bulldozer azzoppato non sono ancora andati via.

Bulldozer schema a blocchi

Se vi ricordate, la condivisione del front-end doveva essere abbastanza veloce per alimentare entrambi i core senza strozzature uno dei due. Non era. Doveva avere una capacità così tanto che quando un core è inattivo, la seconda sarebbe dovuta positivamente volare. E cosi non ha fatto, ma lo ha fatto cadere meno piatta con una sola unità di inattività, molto meno piatto. La condivisione del front-end e il risultato del silicio è l’equivalente di ciò che quel tizio con la maschera di hockey fa per adolescenti ribelli erranti al di fuori di quella capanna nel bosco…..

Piledriver non cambia molto

La seconda revisione chiamato Piledriver risolve un sacco di piccoli problemi, ma non può toccare quelli architettonici. Se pensate di Piledriver come Bulldozer 1.5, questa è la migliore e completa definizione, è semplicemente un evoluzione. Un sacco di cose sono stati puliti, e il cambiamento più importante sembra essere l’aggiunta di due pipes MMX per l’unità FP. Alla fine, un sacco di piccoli colli di bottiglia sono stati aperti, ma il front-end condiviso è ancora staccando i ragazzi (cluster) che vanno in cerca di un compagno (fpu), si sa, quello che il decoder del Bulldozer ha.

Questo ci porta a l’ultima aggiunta alla linea, Steamroller, sulla carta risolve un sacco. Steamroller è il Bulldozer che speravamo di ottenere un anno e mezzo fa. Se fosse uscito nel 2011, invece del 2013, molto bene, avrebbe creato il mondo in fiamme, ma non fu così. Steamroller è un ragazzo del gruppo che sta fuori dalla foresta viva. Perché? Date un’occhiata al front-end, e confrontarlo con le due architetture precedenti.

Steamroller da troppo lontano

Ci sono due cose da notare, la caduta di un MMX pipe nel FPU, e i due decodificatori del front-end. Quello che conta è, naturalmente, i decoder, e spiega perché l’adolescente leggendo libri di architettura di computer che ha fatto uscire dal bosco senza essere strangolato, fissa _IL_ problema importante in Bulldozer. Non sono più i cores strangolati. In teoria. Consente di attendere per il silicio, prima di festeggiare, qualcuno in una maschera da hockey potrebbe ancora saltar fuori della torta nell’ultima scena.

In un mondo dove nell’architettura CPU la gente avrebbe ucciso per un guadagno percentuale completa nel front-end, e uno o due guadagni percentuali frazionali dai diversi settori sono considerati una vittoria chiara, AMD sta sostenendo un guadagno del 30% in ops consegnati per ciclo e il 25% più max-width spedizioni per thread. In breve, hanno fatto l’ovvio, e lo ha fatto l’ovvio, ma il 30% è un guadagno enorme che è difficile da sottovalutare.

Se non altro si mette di mezzo per le prestazioni azzoppate, e a questo punto ci sorprenderebbe abbastanza se qualcosa ha fatto, quindi Steamroller dovrebbe portare a un miglioramento delle prestazioni di massa in singolo codice threaded. Per rendere le cose migliori, è improbabile che fa fiasco quando il secondo core in una coppia sta facendo qualcosa di faticoso come ospitare un gioco solitario. Sulla carta, questo è ciò che ci stiamo aspettando.

Ciò porta ad un altro punto, il 30% è al limite pazzo per un aumento, in particolare uno che si riferisce direttamente alle prestazioni. I decoder erano il principale collo di bottiglia nel paradigma architettonico fino a questo punto, quindi la maggior parte che dovrebbe riportare all’utente finale di singolo codice threaded. Il problema? Qual è stato il punto di partenza di nuovo? Oh sì, non così caldo. 30% di aumento di IPC da un nucleo di Intel sarebbe stato salutato con sguardi fissi nel vuoto e sguardi increduli delle persone che capiscono la tecnologia. 30% dal punto di partenza Bulldozer è appena sufficiente per far tornare in gioco AMD . Detto questo, è giunto il momento.

Che ci porta all’altra estremità dello spettro, librerie ad alta densità (HDL). Come dice il loro nome, sono librerie utilizzate per i chip di progettazione, e la priorità dell’area sulla velocità. Bulldozer non ha mai avuto un problema con frequenza di clock crudo, infatti è l’attuale detentore del record mondiale in proposito. Piledriver sarà, sicuramente, più veloce su base del clock default, e probabilmente una migliore IPC mentre lo fa, ma questi chip non sono ancora usciti. Il messaggio da recepire è che la frequenza di clock prima non è un grosso problema per questa architettura.

Prima e dopo la pressione di un pulsante

Con questo in mente, la diapositiva HDL è piuttosto interessante. AMD sostiene che, se si ricostruisce Bulldozer con una libreria HDL, il chip risultante ha una diminuzione del 30% di dimensioni e consumo. Per AMD, almeno, questo vale un pieno strizzacervelli, ma solo acquistare tale affermazione, se è del 30% più piccolo e 30% in meno assetati di consumo, non il 30% in aggregato. Detto questo, si tratta di un guadagno enorme con un semplice pressione del pulsante.

AMD dovrebbe essere applaudito, o sarebbe stato, ma durante il keynote, l’unica cosa che continuava a passare attraverso la mia mente è stata: “Perché non lo hanno fanno 5 anni fa?”. Se è possibile ottenere il 30% modificando una libreria con quello che costrutite la vostra GPU, non prova che qualcuno dovrebbe starsene fuori prima di decidere sugli strumenti di layout?

Io non sono un architetto CPU, né io sono un EE, ma non ci vuole un grande salto logico per vedere come un semplice test come questo varrebbe la pena indagare. No, non un layout completo della parte nuova, ma una semplice, pugnalata a grana grossa al concetto con un’analisi volta a vedere se si muoveva l’ago nella direzione giusta. Tempo, le risorse e la larghezza di banda interna sono sempre scarsi, ma si potrebbe pensare un lucidante semplice consegna del concetto avrebbe notato il potenziale se farlo per i guadagni reali del 30%.

Come il decoder scissione, l’idea HDL sembra essere uno che arriva troppo tardi. Probabilmente ci sono ragioni tecniche e logistiche davvero buone per entrambi gli anni a venire non prima, ma sulla carta, è così un guadagno di massa che c’è da chiedersi. Tra le due idee, Steamroller e Kaveri sembrano essere dannatamente buone parti. Trinity è meglio di qualsiasi cosa Intel può fare per gli usi domestici, ma che è, nonostante il core, a causa di esso. Con un salto di oltre incrementale sia il core che il layout, AMD sembra essere sulla strada giusta. Vediamo cosa succede quando abbiamo Steamroller sulla base del silicio.S|A

Traduzione italiana di questo articolo – Italian translate of this article

Un breve sguardo al core AMD Steamroller

Leave a Reply Annulla risposta

Related Post

AMD’s Bulldozer CMT ScalingAMD’s Bulldozer CMT Scaling

Raspberry Pi 4 arriva a 2.147 GHz in overclockRaspberry Pi 4 arriva a 2.147 GHz in overclock

Record di overclock per i processori AMD FXRecord di overclock per i processori AMD FX