Share to: share facebook share twitter share wa share telegram print page

EleutherAI

EleutherAI
Información general
Dominio eleuther.ai
Tipo Software de código abierto
Organización sin fines de lucro
Gestión
Lanzamiento 25 de enero de 2023

EleutherAI ( /əˈlθər/[1]​) es un grupo de investigación de inteligencia artificial (IA) de base sin fines de lucro. El grupo implementó una versión de código abierto de OpenAI,[2]​ y se formó en torno a un servidor de Discord en julio de 2020 para organizar una réplica de GPT-3. En enero de 2023, EleutherAI se constituyó formalmente como instituto de investigación sin fines de lucro.[3]

Historia

EleutherAI comenzó como un servidor de Discord el 7 de julio de 2020 con el nombre provisional "LibreAI" antes de cambiar su nombre a "EleutherAI" más tarde ese mes.[4]

El 30 de diciembre de 2020, EleutherAI lanzó Pile, un conjunto de datos seleccionados de texto diverso para entrenar modelos grandes de lenguaje.[5]​ Si bien el documento hizo referencia a la existencia de los modelos GPT-Neo, los modelos en sí no se publicaron hasta el 21 de marzo de 2021.[6]​ Según una retrospectiva escrita varios meses después, los autores no anticiparon que "la gente se preocuparía tanto por nuestros 'pequeños modelos'".[7]​ El 9 de junio de 2021, EleutherAI siguió con GPT-J-6B, un modelo de lenguaje de seis mil millones de parámetros que nuevamente fue el modelo similar a GPT-3 de código abierto más grande del mundo.[8]

Tras el lanzamiento de Dall-e por OpenAI en enero de 2021, EleutherAI comenzó a trabajar en modelos de arte de inteligencia artificial. Ya que OpenAI no lanzó DALL-E públicamente, Katherine Crowson de EleutherAI y el artista digital Ryan Murdock desarrollaron una técnica para usar CLIP (otro modelo desarrollado por OpenAI) para convertir modelos regulares de generación de imágenes en modelos de síntesis de texto a imagen.[9][10][11][12]​ Sobre la base de ideas que se remontan a DeepDream de Google,[13]​ lograron su primer gran éxito al combinar CLIP con otro modelo disponible públicamente llamado VQGAN. Crowson lanzó la tecnología tuiteando cuadernos que demostraban la técnica de que las personas podían usarlo de forma gratuita sin ningún equipo especial.[14][15][16]​ El CEO de Stability AI, Emad Mostaque, acredita que este trabajo motivó la fundación de la empresa.[17]

Si bien EleutherAI inicialmente rechazó las ofertas de financiación y prefirió utilizar el programa TPU Research Cloud de Google[18]​ para obtener su computación,[19]​ a principios de 2021 habían aceptado financiación de CoreWeave[20]​ (una pequeña empresa de computación en la nube) y SpellML (una empresa de infraestructura en la nube) como forma de acceso a potentes clústeres de GPU que son necesarios para la investigación de aprendizaje automático a gran escala. El 10 de febrero de 2022 lanzaron GPT-NeoX-20B, un modelo similar a su trabajo anterior pero ampliado gracias a los recursos proporcionados por CoreWeave.[21]​ Este modelo fue el tercero en tener el título de "modelo de lenguaje estilo GPT-3 de código abierto más grande del mundo". y el primero en ser el modelo de lenguaje de código abierto más grande (de cualquier tipo), superando a un modelo entrenado por Meta AI.[22]​ El 6 de marzo de 2023, era el segundo modelo de lenguaje de código abierto más grande del mundo.

Investigación

Según su sitio web, EleutherAI es un "colectivo de base descentralizado de investigadores, ingenieros y desarrolladores voluntarios centrados en la alineación, el escalado y la investigación de IA del sistema de código abierto de IA." [23]​ Si bien no venden ninguna de sus tecnologías como productos, publican los resultados de su investigación en lugares académicos, escriben publicaciones en blogs que detallan sus ideas y metodologías, y brindan modelos capacitados para que cualquiera los use de forma gratuita.

The Pile

The Pile es un conjunto de datos de 800 GiB diseñado para entrenar modelos grandes de lenguaje. Originalmente se desarrolló para entrenar modelos GPT-Neo de EleutherAI, pero se ha vuelto ampliamente utilizado para entrenar modelos, incluso por parte de investigadores de Microsoft,[24][25]Meta AI,[26]​ la Universidad de Stanford,[27]​ y la Academia de Beijing de Inteligencia Artificial.[28]​ En comparación con otros conjuntos de datos, las principales características distintivas de Pile son que se trata de una selección de datos elegidos por los investigadores de EleutherAI para contener información que pensaban que los modelos de lenguaje deberían aprender, y es el único conjunto de datos de este tipo que está completamente documentado por los investigadores que lo desarrollaron.[29]

Modelos GPT

La investigación más destacada de EleutherAI se relaciona con su trabajo para entrenar modelos grandes de lenguaje de código abierto inspirados en GPT-3 de OpenAI.[30]​ La serie de modelos "GPT-Neo" de EleutherAI ha lanzado 125 millones, 1.300 millones, 2.700 millones, 6.000 millones y 20.000 millones de modelos de parámetros.

  • GPT-Neo (125M, 1.3B, 2.7B):[31]​ lanzado en marzo de 2021, era el modelo de lenguaje estilo GPT-3 de código abierto más grande del mundo en el momento del lanzamiento.
  • GPT-J (6B):[32]​ lanzado en marzo de 2021, era el modelo de lenguaje estilo GPT-3 de código abierto más grande del mundo en el momento del lanzamiento.[33]
  • GPT-NeoX (20B):[34]​ lanzado en febrero de 2022, era el modelo de lenguaje de código abierto más grande del mundo en el momento del lanzamiento.

Si bien la gran mayoría de los modelos de idiomas grandes se entrenan en inglés o chino, EleutherAI también entrena modelos de lenguaje en otros idiomas como Polyglot-Ko,[35]​ capacitado en colaboración con la empresa coreana de PNL TUNiB.

Recepción pública

Elogio

El trabajo de EleutherAI para democratizar GPT-3 ha recibido importantes elogios de una variedad de defensores del código abierto. Ganaron el premio a la innovación global Netexplo de la UNESCO en 2021,[36]​ el premio al mejor software de código abierto de InfoWorld en 2021[37]​ y 2022,[38]​ fue nominado para el premio a la innovación en IA de VentureBeat en 2021.[39]

Gary Marcus, científico cognitivo y destacado crítico de empresas de aprendizaje profundo como OpenAI y DeepMind,[40]​ ha elogiado repetidamente[41][42]​ la dedicación de EleutherAI a la investigación transparente y de código abierto.

Maximilian Gahntz, investigador principal de políticas de la Fundación Mozilla, aplaudió los esfuerzos de EleutherAI para brindar a más investigadores la capacidad de emplear y evaluar la tecnología de IA. "Si los modelos están abiertos y los conjuntos de datos están abiertos, eso permitirá mucho más de la investigación crítica que señala muchos de los defectos y daños asociados con la IA generativa y que a menudo es demasiado difícil de realizar".[43]

Crítica

El periodista de tecnología Kyle Wiggers ha expresado su preocupación sobre si EleutherAI es tan independiente como afirma, o "si la participación de empresas con motivaciones comerciales como Stability AI y Hugging Face, ambas respaldadas por un capital de riesgo sustancial, podría influir en la investigación de EleutherAI".[44]

Referencias

  1. «Talk with Stella Biderman on The Pile, GPT-Neo and MTG». The Interference Podcast. 2 de abril de 2021. Consultado el 26 de marzo de 2023. 
  2. Smith, Craig (21 de marzo de 2022). «EleutherAI: When OpenAI Isn’t Open Enough». IEEE Spectrum. IEEE. Consultado el 17 de diciembre de 2022. 
  3. Wiggers, Kyle (2 de marzo de 2023). «Stability AI, Hugging Face and Canva back new AI research nonprofit». TechCrunch (en inglés estadounidense). Consultado el 6 de abril de 2023. 
  4. Leahy, Connor (7 de julio de 2021). «What A Long, Strange Trip It's Been: EleutherAI One Year Retrospective». EleutherAI Blog (en inglés). Consultado el 14 de abril de 2023. 
  5. . arXiv 2101.00027. 31 de diciembre de 2020. 
  6. «GPT-3’s free alternative GPT-Neo is something to be excited about». VentureBeat (en inglés estadounidense). 15 de mayo de 2021. Consultado el 14 de abril de 2023. 
  7. Leahy, Connor (7 de julio de 2021). «What A Long, Strange Trip It's Been: EleutherAI One Year Retrospective». 
  8. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront». www.forefront.ai. Archivado desde el original el 9 de marzo de 2023. Consultado el 1 de marzo de 2023. 
  9. MIRANDA, LJ. «The Illustrated VQGAN». ljvmiranda921.github.io. Consultado el 11 de mayo de 2023. 
  10. «Inside The World of Uncanny AI Twitter Art». Nylon. Consultado el 11 de mayo de 2023. 
  11. «This AI Turns Movie Text Descriptions Into Abstract Posters». Yahoo Life. Consultado el 11 de mayo de 2023. 
  12. Quach, Katyanna. «A man spent a year in jail on a murder charge involving disputed AI evidence. Now the case has been dropped». www.theregister.com. Consultado el 11 de mayo de 2023. 
  13. «Alien Dreams: An Emerging Art Scene - ML@B Blog». Alien Dreams: An Emerging Art Scene - ML@B Blog. Archivado desde el original el 10 de marzo de 2023. Consultado el 11 de mayo de 2023. 
  14. «We asked an AI tool to 'paint' images of Australia. Critics say they're good enough to sell». 14 de julio de 2021. Consultado el 11 de mayo de 2023. 
  15. Nataraj, Poornima (28 de febrero de 2022). «Online tools to create mind-blowing AI art». Analytics India Magazine. Consultado el 11 de mayo de 2023. 
  16. «Meet the Woman Making Viral Portraits of Mental Health on TikTok». www.vice.com. Consultado el 11 de mayo de 2023. 
  17. EMostaque. «Stability AI came out of @AiEleuther and we have been delighted to incubate it as the foundation was set up» (tuit) – via X/Twitter. 
  18. «TPU Research Cloud». Consultado el 11-5-2023. 
  19. «EleutherAI: When OpenAI Isn’t Open Enough». IEEE Spectrum. Consultado el 11-5-2023. 
  20. «CoreWeave partners with EleutherAI & NovelAI to make open-source AI more accessible». Consultado el 11-5-2023. 
  21. «Wayback Machine». web.archive.org. 10 de febrero de 2022. Archivado desde el original el 10 de febrero de 2022. Consultado el 1 de marzo de 2023. 
  22. Arham Islam (22 de febrero de 2023). «Top Large Language Models (LLMs) in 2023 from OpenAI, Google AI, Deepmind, Anthropic, Baidu, Huawei, Meta AI, AI21 Labs, LG AI Research and NVIDIA». Marktechpost (en inglés). Consultado el 11-5-2023. 
  23. «EleutherAI Website». EleutherAI. Consultado el 1 de julio de 2021. 
  24. «Microsoft and Nvidia team up to train one of the world’s largest language models». 11 de octubre de 2021. Consultado el 11 de mayo de 2023. 
  25. «AI: Megatron the Transformer, and its related language models». 24 de septiembre de 2021. Consultado el 11 de mayo de 2023. 
  26. Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona et al. (21 de junio de 2022). OPT: Open Pre-trained Transformer Language Models. arXiv:2205.01068. Consultado el 11 de mayo de 2023. 
  27. «Stanford CRFM». crfm.stanford.edu. Consultado el 11 de mayo de 2023. 
  28. Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin et al. (1 de enero de 2021). «WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models». AI Open 2: 65-68. doi:10.1016/j.aiopen.2021.06.001. Consultado el 11 de mayo de 2023. 
  29. Khan, Mehtab (13 de septiembre de 2022). «The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability». Consultado el 11 de mayo de 2023. 
  30. «GPT-3’s free alternative GPT-Neo is something to be excited about». 15 de mayo de 2021. 
  31. Andonian, Alex (13 de agosto de 2021). «GPT-NeoX: Large Scale Autoregressive Language Modeling in PyTorch». 
  32. «EleutherAI/gpt-j-6B · Hugging Face». huggingface.co. 
  33. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront». www.forefront.ai. Archivado desde el original el 9 de marzo de 2023. Consultado el 11 de mayo de 2023. 
  34. . Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. 1 de mayo de 2022. pp. 95-136. 
  35. «"한국어기반 AI소스 공개합니다 마음껏 쓰세요"». 매일경제. 31 de octubre de 2022. 
  36. «Request Rejected». Consultado el 11 de mayo de 2023. 
  37. Yegulalp, James R. Borck, Martin Heller, Andrew C. Oliver, Ian Pointer, Matthew Tyson and Serdar (18 de octubre de 2021). «The best open source software of 2021». InfoWorld. Consultado el 11 de mayo de 2023. 
  38. Yegulalp, James R. Borck, Martin Heller, Andrew C. Oliver, Ian Pointer, Isaac Sacolick, Matthew Tyson and Serdar (17 de octubre de 2022). «The best open source software of 2022». InfoWorld. Consultado el 11 de mayo de 2023. 
  39. «VentureBeat presents AI Innovation Awards nominees at Transform 2021». 16 de julio de 2021. Consultado el 11 de mayo de 2023. 
  40. «What's next for AI: Gary Marcus talks about the journey toward robust artificial intelligence». ZDNET. Consultado el 11 de mayo de 2023. 
  41. GaryMarcus. «GPT-NeoX-20B, 20 billion parameter large language model made freely available to public, with candid report on strengths, limits, ecological costs, etc.» (tuit) – via X/Twitter. 
  42. GaryMarcus. «incredibly important result: “our results raise the question of how much [large language] models actually generalize beyond pretraining data”» (tuit) – via X/Twitter. 
  43. Chowdhury, Meghmala (29 de diciembre de 2022). «Will Powerful AI Disrupt Industries Once Thought to be Safe in 2023?». Analytics Insight (en inglés estadounidense). Consultado el 6 de abril de 2023. 
  44. Wiggers, Kyle (2 de marzo de 2023). «Stability AI, Hugging Face and Canva back new AI research nonprofit». Consultado el 11 de mayo de 2023. 
Kembali kehalaman sebelumnya