El rendimiento del modelo de inferencia DeepSeek-R1 es comparable al de OpenAI
búsqueda profunda Se lanzaron los modelos DeepSeek-R1 y DeepSeek-R1-Zero de primera generación, con el objetivo de resolver tareas de inferencia complejas.
DeepSeek-R1-Zero se entrena únicamente mediante aprendizaje por refuerzo (RL) a gran escala sin depender del ajuste fino supervisado (SFT) como paso preliminar. Según DeepSeek, este enfoque conduce al surgimiento natural de "muchos comportamientos de razonamiento poderosos e interesantes", incluida la autoverificación, la reflexión y la generación de extensas Cadenas de Pensamientos (CoT).
"especialmente, [DeepSeek-R1-Zero] Los investigadores de DeepSeek explican: "Este es el primer estudio abierto que verifica que las capacidades de razonamiento de los estudiantes de LL.M. pueden ser motivadas exclusivamente por RL, sin la necesidad de SFT. Este hito no solo resalta la base innovadora del modelo, sino que también proporciona". Los avances en el campo de la inteligencia artificial inferencial centrados en el aprendizaje por refuerzo han allanado el camino.
Sin embargo, DeepSeek-R1-Zero tiene ciertas limitaciones en sus capacidades. Los desafíos clave incluyen "repeticiones interminables, mala legibilidad y mezcla de idiomas", que pueden plantear obstáculos importantes para las aplicaciones del mundo real. Para abordar estas deficiencias, DeepSeek desarrolló su modelo insignia: DeepSeek-R1.
Introducción a DeepSeek-R1
DeepSeek-R1 se basa en su predecesor e incorpora datos de arranque en frío antes del entrenamiento RL. Este paso adicional de preentrenamiento mejora las capacidades de inferencia del modelo y aborda muchas de las limitaciones mencionadas en DeepSeek-R1-Zero.
En particular, el rendimiento de DeepSeek-R1 en tareas de matemáticas, codificación y razonamiento general es comparable al aclamado sistema o1 de OpenAI, lo que consolida su posición como competidor líder.
DeepSeek optó por el código abierto DeepSeek-R1-Zero y DeepSeek-R1, así como seis modelos refinados más pequeños. Entre ellos, DeepSeek-R1-Distill-Qwen-32B mostró excelentes resultados e incluso superó al o1-mini de OpenAI en múltiples pruebas comparativas.
- MATH-500 (Pass@1): DeepSeek-R1 logró un 97,3%, superando a OpenAI (96,4%) y otros competidores importantes.
- LiveCodeBench (Pass@1-COT): la versión destilada DeepSeek-R1-Distill-Qwen-32B obtuvo una puntuación del 57,2 %, con un buen rendimiento entre los modelos más pequeños.
- AIME 2024 (Aprobado@1): DeepSeek-R1 logró una puntuación del 79,8 %, estableciendo un estándar impresionante en la resolución de problemas matemáticos.
Tuberías que benefician a la industria en general
DeepSeek ha compartido información sobre su riguroso proceso de desarrollo de modelos de inferencia, que integra una combinación de ajuste supervisado y aprendizaje por refuerzo.
Según la empresa, el proceso implica dos etapas SFT para desarrollar habilidades básicas de razonamiento y no razonamiento, y dos etapas RL destinadas a descubrir patrones de razonamiento de alto nivel y alinear estas habilidades con las preferencias humanas.
"Creemos que este proceso beneficiará a toda la industria al crear mejores modelos", dijo DeepSeek, insinuando que su metodología tiene el potencial de inspirar futuros avances en todo el campo de la IA.
Un logro sorprendente de su enfoque centrado en RL es la capacidad de DeepSeek-R1-Zero para realizar patrones de razonamiento complejos sin instrucciones humanas previas, una novedad en la comunidad de investigación de IA de código abierto.
importancia de la destilación
Los investigadores de DeepSeek también enfatizaron la importancia de la destilación, el proceso de trasladar el poder de inferencia de un modelo más grande a un modelo más pequeño y más eficiente, una estrategia que puede generar ganancias de rendimiento incluso para configuraciones más pequeñas.
Las versiones refinadas más pequeñas de DeepSeek-R1, como las versiones 1.5B, 7B y 14B, han podido mantenerse firmes en aplicaciones de nicho. El rendimiento del modelo refinado es mejor que el logrado mediante el entrenamiento RL de un modelo del mismo tamaño.
🔥 Recompensa: ¡Modelo de destilación de código abierto!
🔬 Extraídos de DeepSeek-R1, 6 modelos pequeños son completamente de código abierto
📏 Los modelos 32B y 70B equivalen a OpenAI-o1-mini
🤝 Empoderar a la comunidad de código abierto🌍 ¡Rompiendo los límites de la **inteligencia artificial abierta**!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
- Búsqueda profunda (@deepseek_ai) 20 de enero de 2025
Para los investigadores, las configuraciones de estos modelos refinados oscilan entre 1.500 millones y 70.000 millones de parámetros y admiten arquitecturas Qwen2.5 y Llama3. Esta flexibilidad permite múltiples usos en tareas que van desde la codificación hasta la comprensión del lenguaje natural.
El repositorio y los pesos de DeepSeek tienen la licencia MIT, que extiende los permisos para uso comercial y modificación posterior. Se permiten trabajos derivados, como el uso de DeepSeek-R1 para entrenar otros modelos de lenguaje grandes (LLM). Sin embargo, los usuarios de modelos de destilación específicos deben asegurarse de cumplir con las licencias de los modelos base originales, como las licencias Apache 2.0 y Llama3.
(fotografía: Prateik Katiyar)
Ver también: Microsoft recurre a MatterGen para avanzar en el descubrimiento de materiales
¿Quiere aprender más sobre inteligencia artificial y big data de la mano de los líderes de la industria? Controlar Expo Inteligencia Artificial y Big Data Celebrada en Amsterdam, California y Londres. El evento integral se lleva a cabo al mismo tiempo que otros eventos importantes, incluidos Conferencia de automatización inteligente, brockx, semana de transformación digitaly Expo Ciberseguridad y Nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Descubre herramientas IA similares a El rendimiento del modelo de inferencia DeepSeek-R1 es comparable al de OpenAI puedes visitar la categoría Noticias.
Relacionado: