Pixel Smile: el primer modelo de edición de expresiones faciales zero-shot que corrige el entanglement semántico entre emociones.
- 🔑 Cuatro releases open source para probar: Pixel Smile, Group Editing, Astralab, Cohere Transcribe.
- 🎯 Pixel Smile resuelve el entanglement semántico en 12 expresiones con slider de intensidad continua zero-shot.
- 💡 Group Editing modifica un lote de imágenes coherentes en una sola pasada, aceptado en CVPR 2026.
- 🚀 Cohere Transcribe transcribe 16 minutos de audio en 9 segundos, factor 100x en tiempo real.
- ⚠️ Astralab mejora la calidad del vídeo IA sin coste adicional de memoria ni tiempo de inferencia.
Group Editing: editar un lote de imágenes en una sola pasada, aceptado en CVPR 2026, disponible como LoRA open source.
Astralab: un framework RL que mejora la calidad del vídeo IA sin coste adicional de memoria, compatible con los modelos existentes.
Cohere Transcribe: 2B parámetros, 4 Go, 16 minutos de audio transcritos en 9 segundos, Apache 2.0.
Las 4 releases son open source o están disponibles con pesos públicos en Hugging Face.
Pixel Smile: por fin un control preciso de las emociones faciales
Hay un problema que lleva años arrastrándose en la edición facial con IA: cuando le pides a un modelo que haga que alguien parezca asustado, también desliza un poco de sorpresa en el resultado. Las dos expresiones comparten demasiados marcadores faciales comunes. Es lo que se conoce como entanglement semántico.
Pixel Smile se construyó específicamente para resolver este problema. El modelo cubre 12 expresiones: las 6 básicas (alegría, tristeza, ira, miedo, sorpresa, asco) más 6 extendidas (confuso, desprecio, confiado, tímido, somnoliento, ansioso). Para cada una, un slider de intensidad continua. No cambias una expresión de golpe, la dosificas.
Lo impresionante es el blending. El equipo probó las 15 combinaciones posibles de las 6 emociones básicas. 9 de ellas producen expresiones compuestas coherentes que el modelo nunca vio durante el entrenamiento. Ira + tristeza da una mirada atormentada. Alegría + asco es exactamente la cara de alguien que muerde algo en mal estado.
Estos resultados de blending son completamente zero-shot. El modelo no fue entrenado con expresiones compuestas, aprendió la topología emocional subyacente.
Técnicamente, Pixel Smile es un LoRA adapter sobre QN-Image-Edit-2511, un diffusion transformer multimodal. 850 Mo en formato safe tensor. Tu consumo de VRAM depende del modelo base, no del LoRA.
Modelo | Precisión (6 emociones) | Tasa de confusión estructural |
|---|---|---|
Pixel Smile | 0.8627 | 0.0550 ← la más baja |
Nano Banana Pro | 0.8431 | 0.1754 |
GPT Image 1.5 | 0.8039 | 0.1107 |
Otros modelos | variable | > 0.2000 |
Código en GitHub, pesos en Hugging Face disponibles ahora mismo.
Group Editing: editar un lote de imágenes con un solo prompt
Tienes 4 fotos del mismo perro, cada una desde un ángulo diferente. Quieres cambiarles el estilo a todas con un único prompt. Resultado: 4 imágenes modificadas juntas, de forma coherente, sin tocar las poses ni los fondos.
Eso es exactamente lo que hace Group Editing, un paper que acaba de ser aceptado en CVPR 2026, la referencia absoluta en visión por computador.
Los casos de uso demostrados cubren bastante terreno. Restyling de 4 fotos de un mismo objeto, colorización coherente de 4 imágenes en blanco y negro, conversión de 4 dibujos de líneas a un renderizado realista. Character swapping: proporcionas una imagen de referencia de un personaje y dos escenas con otros personajes, el sistema los reemplaza en ambas escenas simultáneamente. Cambio de color global en 4 imágenes de un mismo coche, transferencia de estilo en 4 elefantes en una sola pasada.
Como Pixel Smile, funciona como un LoRA, compatible con tu pipeline de generación existente. Código y pesos disponibles en GitHub.
Astralab: mejorar el vídeo IA sin tocar la memoria
El vídeo generado por IA tiene un problema común: suele ser plano, los movimientos suenan falsos y hay esa sensación difusa de que algo no cuadra. Astralab es un framework de reinforcement learning que se acopla a un modelo de vídeo destilado existente para corregir exactamente eso.
Lo que diferencia a Astralab de otros enfoques RL para vídeo: no aumenta ni la memoria necesaria ni el tiempo de inferencia. Es el punto que faltaba en todos los intentos anteriores.
El truco técnico se llama trajectory-free forward process RL. Los métodos RL clásicos necesitan recorrer todo el proceso de difusión inversa para calcular los gradientes, lo que hace explotar la memoria. Astralab lo evita comparando directamente las salidas finales positivas y negativas. Cero almacenamiento de trayectoria.
Para vídeo largo, un rolling KV cache procesa las ventanas de clip una por una, así que el uso de memoria se mantiene constante sin importar la duración. Para evitar que el modelo haga trampas con la función de recompensa, un objetivo multi-recompensa cubre simultáneamente la calidad visual, la dinámica de movimiento y la alineación con el texto.
Los resultados en las comparaciones frente a causal vid y self forcing son claros. En cada prompt probado, Astralab está un escalón por encima. Si ya usas modelos como Claude Code para contenido de vídeo, es el tipo de toolkit que vale la pena tener a mano.
Disponible ahora, probado en Craya 14B (40GB+ VRAM) y Causal Forcing 1.3B para configuraciones más ligeras.
Cohere Transcribe: 16 minutos de audio en 9 segundos
Cohere acaba de lanzar un modelo de transcripción speech-to-text. 2 mil millones de parámetros, unos 4 Go. 14 idiomas: inglés, francés, alemán, italiano, chino, japonés, árabe, vietnamita y 6 más. Licencia Apache 2.0.
Lo probé yo mismo: un archivo de audio de 16 minutos, aproximadamente 1 000 segundos. Resultado en 9 segundos. Factor de tiempo real: 100x. La transcripción en sí estaba limpia, sin alucinaciones, sin palabras deformadas.
9 segundos para 16 minutos de audio. Si alguna vez esperaste a que Whisper procesara un archivo largo en local, sabes exactamente lo que esto cambia.
Criterio | Cohere Transcribe | Whisper E3 (OpenAI) |
|---|---|---|
Tamaño del modelo | 4 Go | ~10 Go |
Idiomas | 14 | 99+ |
Licencia | Apache 2.0 (comercial) | MIT |
Velocidad (x tiempo real) | ~100x | ~30-50x |
WER (AMI benchmark) | Mejor del leaderboard | 2ª posición |
Win rate vs 11labs | 51% | , |
Es un modelo gated en Hugging Face, así que antes de lanzar nada, ve a su repo HF, haz clic en 'Agree and access repository', genera un token de lectura y pégalo en el notebook Colab proporcionado. Después, run all, y en 2 minutos tienes una interfaz Gradio con subida de archivos o grabación directa desde el micrófono.
Qué cambia esto en la práctica
Estas 4 releases tienen un punto en común: son open source o están disponibles con pesos públicos. Sin lista de espera, sin API cerrada. Descargas, pruebas, integras.
Pixel Smile y Group Editing transforman la gestión de assets visuales en batch. Astralab hace que tus generaciones de vídeo sean más profesionales sin cambiar tu stack. Cohere Transcribe reemplaza a Whisper si la velocidad es tu cuello de botella.
Para los equipos que construyen pipelines de contenido automatizado, es exactamente este tipo de piezas las que usamos en los operating systems IA para clientes: herramientas especializadas, ligeras, componibles.
