Siempre he querido un modelo que vea, oiga y razone en el portátil sin tener que pedirle una GPU a un amigo.
Google acaba de soltar Gemma 4 12B: abierto, procesa texto, imágenes y audio sin codificadores separados, y corre con 16 GB de RAM. Casi iguala al modelo de 26B en benchmarks.
Lo que me falta es saber cómo se porta con audio real (ruido de fondo, acentos, cortes). Apache 2.0, así que lo bajo para probarlo este fin de semana.