Microsoft mejora los modelos de lenguaje pequeños con la técnica rStar-Math

TecnologíaInteligencia artificial

Microsoft mejora los modelos de lenguaje pequeños con la técnica rStar-Math

Microsoft ha presentado rStar-Math, una técnica innovadora que mejora el razonamiento matemático de modelos de lenguaje pequeños, superando capacidades de OpenAI sin modelos mayores.

Descripción

Microsoft ha realizado un avance significativo en el campo de los modelos de lenguaje pequeños (SLMs) con el desarrollo de una nueva técnica de razonamiento denominada rStar-Math. Esta innovadora técnica mejora las capacidades de los SLMs, permitiéndoles competir e incluso superar la habilidad de razonamiento matemático del modelo o1 de OpenAI, sin necesidad de destilar conocimientos de modelos superiores.

Según un documento de investigación publicado en arXiv.org, rStar-Math logra este avance al emplear "pensamiento profundo" a través de la búsqueda en árbol de Monte Carlo (MCTS). En este proceso, un modelo SLM especializado en matemáticas realiza una búsqueda durante el tiempo de prueba, guiado por un modelo de recompensa basado en otro SLM. Gracias a MCTS, rStar-Math puede analizar críticamente tareas y consultas complejas paso a paso, facilitando la resolución de problemas matemáticos por parte de los SLMs.

Además, los investigadores han ido más allá del simple razonamiento al requerir que el modelo muestre su cadena de pensamiento, lo que incluye descripciones en lenguaje natural y código en Python. La técnica incluye tres innovaciones diseñadas para mitigar los problemas comunes en el entrenamiento de SLM.

El documento de investigación detalla cuatro rondas de auto-evolución que generan "millones de soluciones sintetizadas para 747,000 problemas matemáticos". Gracias a esto, rStar-Math eleva el razonamiento matemático a niveles de vanguardia, logrando que el modelo Qwen2.5-Math-7B pase del 58.8% al 90.0% en evaluaciones, y que el Phi3-mini de 3.8B logre una mejora del 41.4% al 86.4%. Curiosamente, esto permite a los SLMs superar el modelo de razonamiento o1 de OpenAI en un 4.5% y un 0.9%, respectivamente. Además, la técnica logró resolver el 3.3% de los problemas, ubicándose entre el 20% superior de competidores de secundaria en la American Invitational Mathematics Examination (AIME).

Hugging Face ha destacado que los investigadores planean lanzar rStar-Math en GitHub. Sin embargo, Li Lyna Zhang, una de las investigadoras que participó en el estudio, ha indicado que el código “aún está en el proceso de revisión para su lanzamiento como código abierto”. Actualmente, el repositorio permanece privado, pero se espera que sea liberado en el futuro cercano.

En abril pasado, Microsoft presentó Phi-3 Mini, un modelo de IA ligero que promete capacidades comparables a GPT-3.5 a pesar de su menor tamaño. Este modelo se entrena con menos datos que GPT-4 u otros modelos de lenguaje grandes, pero puede superar a modelos más grandes como Llama 2. Con esta nueva técnica, Microsoft demuestra que, en el ámbito de la inteligencia artificial, más grande no siempre es sinónimo de mejor, abriendo la puerta a una mayor eficiencia y rendimiento en futuros modelos de IA.