DBRX — модель с открытым исходным кодом класса LLM, разработанная командой Mosaic ML компании Databricks и выпущенная 27 марта 2024 года.[1][2][3] Это трансформерная модель типа смеси экспертов[англ.] (mixture-of-experts) с общим количеством параметров 132 миллиарда. Для обработки каждого токена активно используется 36 миллиардов параметров (4 из 16 экспертов).[4] Компания выпустила две версии модели: базовую[англ.] (foundation model), которая обучена на общих текстах, и инструктивно-настроенную версию[англ.] (instruction-tuned variant), дообученную методом контролируемого обучения на наборах данных с примерами "вопрос-ответ".[5]
На момент выпуска модель DRBX превзошла другие известные открытые модели, такие как LLaMA 2 от Meta, Mixtral от Mistral AI[англ.] и Grok от xAI, в различных тестах, включая понимание языка, способности к программированию и математике.[4][6][7]
Модель обучалась в течение 2,5 месяцев[7] на 3 072 GPU Nvidia H100, соединённых с пропускной способностью 3,2 ТБ/с (технология InfiniBand). Стоимость обучения составила $10 млн.[1]
См. также
Примечания
- ↑ 1 2 Introducing DBRX: A New State-of-the-Art Open LLM (амер. англ.). Databricks (27 марта 2024). Дата обращения: 10 февраля 2025.
- ↑ New Databricks open source LLM targets custom development | TechTarget (англ.). Business Analytics. Дата обращения: 10 февраля 2025.
- ↑ Ghoshal, Anirban. Databricks' open-source DBRX LLM beats Llama 2, Mixtral, and Grok (англ.). InfoWorld (27 марта 2024). Дата обращения: 28 марта 2024.
- ↑ 1 2 A New Open Source LLM, DBRX Claims to be the Most Powerful – Here are the Scores . GIZMOCHINA (28 марта 2024).
- ↑ Wiggers, Kyle. Databricks spent $10M on new DBRX generative AI model (амер. англ.). TechCrunch (27 марта 2024). Дата обращения: 29 марта 2024.
- ↑ Data and AI company DataBrix has launched a general-purpose large language model (LLM) DBRX that out.. (англ.). Maeil Business Newspaper (28 марта 2024). Дата обращения: 10 февраля 2025.
- ↑ 1 2 Knight, Will. Inside the Creation of the World's Most Powerful Open Source AI Model. Wired (англ.). ISSN 1059-1028. Дата обращения: 10 февраля 2025.
You must be logged in to post a comment.