Phi3 vs Llama3: la nueva generación LLMs

Los nuevos modelos de lenguaje como Phi3 para mi son una revolución ya que al ser mucho más pequeños tiene varias ventajas: son más rápidos, por tanto más baratos, y los puedes ejecutar prácticamente en cualquier plataforma.

Llama3

Recientemente Meta ha lanzado la nueva familia de modelos de lenguaje grandes (LLMs) Llama3 que promete ser mucho más potentes que la generación anterior, Llama2.

En esta página puedes leer los benchmarks y comparación con la versión anterior, y junto con otros modelos bastante potentes como lo son Claude Sonnet (el modelo "intemedio" de Anthropic), GPT-3.5, Mistral y por supuesto con Llama2.

En estos tests sintéticos se puede ver cómo la puntuación del nuevo modelo Llama3 mejora sustancialmente a los diferentes modelos que expone, pero como siempre, lo mejor que podemos hacer es probarlo porque es Open Source.

Puedes ejecutar el modelo más simple con el siguiente comando (tutorial para ejecutar un modelo con Ollama):

ollama run llama3:8b

Yo lo he estado probando estos días y la verdad es que se nota una mejora sustancial en cuanto a rendimiento. Pero la sorpresa para mí no está aquí, si no en la noticia que surge a los pocos días...

Phi3

Al poco del lanzamiento de Llama3 por parte de Meta, la empresa Microsoft ha lanzado una serie de nuevos modelos Phi3 que tras probarlos me han parecido brutales.

Me ha asombrado lo rápido que se ejecutan en local, junto con la calidad de los resultados en las diferentes pruebas que he hecho. Quiero seguir probándolos en profundidad para ver hasta dónde llegan.

Lo interesante es que esta nueva familia de modelos es, por un lado mucho más compacta (menos parámetros, menos tamaño, menos cómputo) y por otro lado mucho más potente que Llama3 (o eso dicen).

Puedes ejecutar el modelo en local con el siguiente comando (tutorial para ejecutar un modelo con Ollama):

ollama run phi3

Por ejemplo el modelo Phi3-mini, aunque asegura tener una ventana de contexto de 4K o 180K, según el modelo. en las pruebes que he hecho con una entrada de 1k~2k tokens, se ha perdido la instrucción y no ha realizado la tarea. En cambio para inputs de <1k tokens, la performance es muy buena, y además la velocidad es increíble en comparación con otros modelos.

Conclusión

Es muy interesante el mundo de los modelos de lenguaje, y en mi caso los modelos de lenguaje pequeños me parecen muy interesantes para realizar tareas por su menor coste y su velocidad de respuesta. Es cuestión de tiempo que vayan mejorando.

Phi3 vs Llama3: la nueva generación LLMs

Llama3

Phi3

Conclusión

Aprende sobre creación de producto y desarrollo de software

Conocimiento que transforma

Experiencia real

Directo al grano

Lo último que he escrito en el blog

Clickhouse, todo lo que debes saber

Cómo despliego mis side-projects de local a producción (self-hosted) con Airo

Cómo iterar rápido con Git

Haz una presentación con Obsidian

Desarrollo un editor HTML con React.js (WYSIWYG)