Статья ДИСТИЛЛЯЦИЯ РИЗОНИНГА В МАЛЫЕ ЯЗЫКОВЫЕ МОДЕЛИ | Научно-практический журнал широкого профиля «Наука, техника и образование»

ДИСТИЛЛЯЦИЯ РИЗОНИНГА В МАЛЫЕ ЯЗЫКОВЫЕ МОДЕЛИ

Авторы: Корлякова Мария Олеговна , Сухацкий Максим Олегович

Опубликовано: 12.12.2025

Опубликовано в выпуске: СВ1(2025)КНИИТМУ (55)

Рубрика: Новые технологии в разработке продукции и диверсификация производства

Qwen3., Skip-thinking, Program-of-Thought, Chain-of-Thought, дистилляция, Machine Learning, NLP

Рассмотрен подход к дистилляции (переносу знаний) рассуждающих способностей от большой языковой модели-учителя к малой языковой модели-ученику. Описан метод создания датасета, содержащего различные типы рассуждений (Chain-of-Thought, Program-of-Thought, Skip-Thinking), и процесс дообучения малой модели с использованием этого датасета и техники LoRA. Целью работы является демонстрация снижения вычислительной сложности нейросети за счет передачи сложных навыков рассуждения от мощной модели к более компактной.

Добавить статью