PaLM

PaLM (англ. Pathways Language Model) — это большая языковая модель на основе архитектуры трансформера с 540 миллиардами параметров, разработанная Google AI[1]. Исследователи также создали версии модели PaLM с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба[2].

PaLM способен выполнять широкий спектр задач, включая логические рассуждения, арифметические рассуждения, объяснение шуток, генерацию кода и перевод текстов[2][3][4][5]. В сочетании с подсказками по цепочке рассуждений PaLM достигла значительно более высокой производительности при работе с наборами данных, требующими логических выводов в несколько этапов, таких как текстовые задачи и логические вопросы[1][2].

Впервые об этой модели было объявлено в апреле 2022 года, и она оставалась закрытой до марта 2023 года, когда Google запустил API для работы с PaLM и другими технологиями[6]. Сообщалось, что сначала API будет доступен для ограниченного числа разработчиков, которые присоединятся к списку ожидания, прежде чем он будет открыт для широкой публики[7].

Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM, которая тонко настроена на медицинские данные и превосходит предыдущие модели в тестах, где нужно отвечать на медицинские вопросы[8][9]. Med-PaLM была первой моделью, которая получила проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы она также предоставляет аргументы и может оценивать свои собственные ответы[10].

Google также расширил PaLM с помощью ViT[англ.], чтобы создать PaLM-E, современную языковую модель со зрением, которую можно использовать в робототехнике[11][12]. Модель может соревновательно выполнять задачи по робототехнике без необходимости переобучения или тонкой настройки[13].

Обучение

PaLM предварительно обучена на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает отфильтрованные веб-страницы, книги, статьи в Википедии, новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub, и разговоры в социальных сетях[1][2]. Она основана на наборе данных, используемом для обучения модели Google LaMDA[2]. Часть набора данных, посвященная разговорам в социальных сетях, составляет 50 % корпуса, что помогает модели в её диалоговых возможностях[2].

PaLM 540B была обучена на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенными к 768 хостам, подключённым с использованием комбинации модели и параллелизма данных, что является крупнейшей конфигурацией TPU, описанной на сегодняшний день[2][14]. Это позволило провести эффективное обучение в масштабе с использованием 6144 чипов, что стало рекордом максимальной эффективности обучения, достигнутой для LLM в этом масштабе с использованием аппаратных FLOP на 57,8 %[3].

Примечания

  1. 1 2 3 Chowdhery, Aakanksha; Narang, Sharan. Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  2. 1 2 3 4 5 6 7 Chowdhery, Aakanksha (2022). PaLM: Scaling Language Modeling with Pathways. doi:10.48550/arXiv.2204.02311. {{cite journal}}: Cite journal требует |journal= (справка)
  3. 1 2 Anadiotis, George. Google sets the bar for AI language models with PaLM. VentureBeat (12 апреля 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  4. Bastian, Matthias. Google PaLM: Giant language AI can explain jokes. THE DECODER (5 апреля 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  5. Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha (англ.). seekingalpha.com (12 декабря 2022). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  6. Vincent, James. Google opens up its AI language model PaLM to challenge OpenAI and GPT-3. The Verge (14 марта 2023). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  7. Woodward, Josh; Huffman, Scott. PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications (англ.). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  8. Singhal, Karan (2022). Large Language Models Encode Clinical Knowledge. doi:10.48550/arXiv.2212.13138. {{cite journal}}: Cite journal требует |journal= (справка)
  9. MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor. The Medical Futurist (17 января 2023). Дата обращения: 17 марта 2023. Архивировано 17 марта 2023 года.
  10. Corrado, Greg; Matias, Yossi. Our latest health AI research updates (амер. англ.). Google (14 марта 2023). Дата обращения: 17 марта 2023. Архивировано 21 марта 2023 года.
  11. Driess, Danny (2023). PaLM-E: An Embodied Multimodal Language Model. doi:10.48550/arXiv.2303.03378. {{cite journal}}: Cite journal требует |journal= (справка)
  12. Florence, Pete; Driess, Danny. PaLM-E: An embodied multimodal language model (англ.). ai.googleblog.com. Дата обращения: 17 марта 2023. Архивировано 20 марта 2023 года.
  13. Benj Edwards. Google’s PaLM-E is a generalist robot brain that takes commands (амер. англ.). Ars Technica (7 марта 2023). Дата обращения: 11 марта 2023. Архивировано 11 марта 2023 года.
  14. An empirical analysis of compute-optimal large language model training (англ.). www.deepmind.com. Дата обращения: 17 марта 2023. Архивировано 26 марта 2023 года.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.