Pirobits
  

Phi3 vs Llama3: la nueva generación LLMs

alberto avatar Alberto Sola · 4/26/2024 · 3 min

Los nuevos modelos de lenguaje como Phi3 para mi son una revolución ya que al ser mucho más pequeños tiene varias ventajas: son más rápidos, por tanto más baratos, y los puedes ejecutar prácticamente en cualquier plataforma.

Llama3

Recientemente Meta ha lanzado la nueva familia de modelos de lenguaje grandes (LLMs) Llama3 que promete ser mucho más potentes que la generación anterior, Llama2.

En esta página puedes leer los benchmarks y comparación con la versión anterior, y junto con otros modelos bastante potentes como lo son Claude Sonnet (el modelo "intemedio" de Anthropic), GPT-3.5, Mistral y por supuesto con Llama2.

En estos tests sintéticos se puede ver cómo la puntuación del nuevo modelo Llama3 mejora sustancialmente a los diferentes modelos que expone, pero como siempre, lo mejor que podemos hacer es probarlo porque es Open Source.

Puedes ejecutar el modelo más simple con el siguiente comando (tutorial para ejecutar un modelo con Ollama):

ollama run llama3:8b

Yo lo he estado probando estos días y la verdad es que se nota una mejora sustancial en cuanto a rendimiento. Pero la sorpresa para mí no está aquí, si no en la noticia que surge a los pocos días...

Phi3

Al poco del lanzamiento de Llama3 por parte de Meta, la empresa Microsoft ha lanzado una serie de nuevos modelos Phi3 que tras probarlos me han parecido brutales.

Me ha asombrado lo rápido que se ejecutan en local, junto con la calidad de los resultados en las diferentes pruebas que he hecho. Quiero seguir probándolos en profundidad para ver hasta dónde llegan.

Lo interesante es que esta nueva familia de modelos es, por un lado mucho más compacta (menos parámetros, menos tamaño, menos cómputo) y por otro lado mucho más potente que Llama3 (o eso dicen).

Puedes ejecutar el modelo en local con el siguiente comando (tutorial para ejecutar un modelo con Ollama):

ollama run phi3

Por ejemplo el modelo Phi3-mini, aunque asegura tener una ventana de contexto de 4K o 180K, según el modelo. en las pruebes que he hecho con una entrada de 1k~2k tokens, se ha perdido la instrucción y no ha realizado la tarea. En cambio para inputs de <1k tokens, la performance es muy buena, y además la velocidad es increíble en comparación con otros modelos.

Conclusión

Es muy interesante el mundo de los modelos de lenguaje, y en mi caso los modelos de lenguaje pequeños me parecen muy interesantes para realizar tareas por su menor coste y su velocidad de respuesta. Es cuestión de tiempo que vayan mejorando.

Si te ha resultado útil este artículo agradecería si te suscribes a mi newsletter. Recibirás contenido exclusivo de calidad y también me ayudarás enormemente. Cada suscripción apoya el trabajo que realizo y me permite conocer mejor los temas que te interesan, de forma que puedo mejorar los conocimientos que comparto contigo.


Posts recientes