Saya optimis pada elastisitas permintaan inferensi, tetapi dengan inferensi yang berpindah ke edge (laptop, smartphone), bukankah seharusnya sebagian besar pekerjaan AI terjadi secara lokal? Ada dunia di mana kita menebak dengan benar besarnya urutan untuk permintaan, tetapi salah bahwa itu terutama akan kehabisan pusat data hyperscaler.
4,51K