OpenELM: La respuesta OpenSource de Apple para LLMs en dispositivos

Muchos analistas piensan que Apple [AAPL] se ha quedado atrás en la batalla de AI Generativo. Mientras que sus competidores han lanzado avanzados LLMs como GPT-4, Gemini y Claude; Apple se ha quedado atrás en la carrera y la inteligencia artificial conversacional de sus soluciones como Siri parecen obsoletas.

Sin embargo, Apple sorprendió a los mercados con un anuncio el Lunes 22 de abril de 2024, cuando mencionó la integración de Inteligencia Artificial Generativa en el iPhone, lo que causará un incremento de 36% del valor de su acción según Bank of America.

Apple ha decidido adoptar un enfoque diferente para competir con los gigantes como Google, Meta y OpenAI en el ámbito de modelos de lenguaje grandes (LLMs por sus siglas en inglés). En lugar de lanzar grandes modelos entrenados con billones de parámetros que son procesados en la nube y accesibles mediante una conexión a Internet; Apple lanzó OpenELM, un set de modelos de lenguaje con pocos parámetros que serán optimizados a nivel Hardware para correr en sus dispositivos móviles (iPhone, iPad, MacOSX).

El aviso sorprendió a muchos, ya que Apple los distribuirá con un modelo de código abierto, como lo hizo X.ai al lanzar grok. Esto permitirá a cualquier desarrollador pueda entrenarlos y modificarlos para casos de uso específicos. Históricamente, Apple ha sido caracterizado por código y ecosistema cerrado, como cerrar las puertas a Apps que se distribuyan fuera de su AppStore que ha causado conflictos regulatorios con la Unión Europea y Estados Unidos.

Acerca de OpenELM

OpenELM es una familia de modelos de lenguaje pre-entrenados y afinados que están disponibles públicamente, lo que permite una mayor transparencia y reproducibilidad de los modelos. Estos LLMs utilizan una estrategia de escalado por capas para asignar eficientemente los parámetros dentro de cada capa del modelo transformador, mejorando así la precisión.

Para realizar un comparativo con los modelos OpenSource líderes del mercado como Llama 2 70B (Meta) o Falcon 13B, estos normalmente cuentan con un pre-entrenamiento de 13 y 70 billones (mil millones) de parámetros respectivamente. Para correr estos modelos, se necesita un gran nivel de cómputo, aproximadamente 13GB y 70GB de RAM respectivamente.

El modelo OpenELM de Apple cuenta con un pre-entrenamiento de sólo 1.1 billones de parámetros, por lo que podrá correr en iPhones, iPads y MacBooks. Además, Apple optimizará el performance de estos modelos para el hardware en sus chips de Apple Silicon, para obtener una mejor eficiencia y rendimiento en su ecosistema.

Casos de Uso

OpenELM se aplica en una variedad de casos de uso dentro del procesamiento del lenguaje natural (NLP) como la generación de texto, comprensión de lenguaje y tareas de clasificación de lenguaje. Se estipula que Apple mejore significativamente el performance de Siri y haga un pre-procesamiento de las peticiones del usuario antes de enviarlo a la nube. Es decir, se podrían procesar localmente tareas en el dispositivo como:

Escribir un e-mail
Encontrar un contacto, nota o archivo
Resumir un texto
Cambiar el tono de e-mails (Hacerlo más profesional/casual)
Organizar tareas del calendario
Responder a mensajes en iMessage
Generación de textos/poemas
Responder a preguntas del usuario que no requieran consultar Internet

Además, podría contar con un mecanismo de detección de intenciones, para interactuar correctamente con las Apps del dispositivo y no realizar una búsqueda en Safari como actualmente lo tiene Siri.

Evaluación Comparativa

En comparación con otros LLM de tamaño similar entrenados en conjuntos de datos públicos, OpenELM ha demostrado un rendimiento superior. Por ejemplo, con 1.1 billones de parámetros, OpenELM supera a OLMo, que tiene 1.2 billones de parámetros, en un 2.36% de precisión, mientras que requiere la mitad de los tokens de entrenamiento.

El corazón de OpenELM es su arquitectura de transformador de un solo decodificador. Sin embargo, a diferencia de los LLM existentes que tienen la misma configuración para cada capa, OpenELM ajusta el número de cabezas de atención y la dimensión de la red neuronal de alimentación hacia adelante en cada capa. Esto permite una distribución no uniforme de los parámetros, lo que mejora la eficiencia y el rendimiento.

Aunque OpenELM es más lento que OLMo en términos de inferencia, Apple está trabajando en optimizaciones para mejorar la eficiencia del modelo en dispositivos Apple Silicon.

El resultado completo de performance fue publicado en este paper.

Solución Híbrida

Como profesionista de tecnología y apasionado por la Inteligencia Artificial generativa, creo que el enfoque de Apple es un paso emocionante en el campo de los LLMs. Si bien, nunca podremos compararlo con el performance de los líderes del mercado en nube; pienso que muchas tareas cotidianas podrán ser resueltas por estos modelos.

En mi opinión personal, creo que el enfoque de Apple será una definición de arquitectura híbrida que tendremos que implementar y aplicar a futuro. En esta arquitectura, el prompt del usuario pasará en primera instancia por estos modelos básicos localmente para soluciones simples. Si estos modelos son capaces de resolver el prompt, entonces podremos conectar a nube e invocar a los demás para resolver el problema.