Александр Березин
|3
Компания объединила подходы «смеси экспертов» (Mixture of Experts, MoE) и «энкодер-декодер» (encoder-decoder, «кодировщик-декодировщик»), рассказала технический директор Яндекс Поиска Екатерина Серажим на конференции «День Поиска 2026». В компании подчеркнули, что такое объединение методов ранее существовало в основном на уровне научных исследований, а не практических технологий.
В последнее время мировые поисковые системы уделяют все больше внимания прямым ответам на запросы. То есть когда человек вбивает что-то в поиск, кроме выдачи ссылок, он получает в самом верху ответ, который нейросеть генерирует «на лету», в виде связного текста. «Генеративные ответы — важная часть пользовательского опыта. Такие ответы должны соответствовать требованиям «Поиска»: быть быстрыми, лаконичными и эффективно работать на большом потоке запросов», — отметила Екатерина Серажим.
Для решения довольно непростой задачи компания развивает отдельный набор моделей — Alice AI Search, оптимизированный под задачи поиска. «За последний год мы внедрили улучшения во всех частях технологии — от обучения претрейн-моделей до оптимизации инфраструктуры», — добавила она.
По ее словам, для таких моделей требуется и особая архитектура, так как в «Поиске» им приходится почти мгновенно анализировать большой объем информации из веб-документов. Это отличается от стандартного подхода нейросетей к генерации ответов. Поэтому важно использовать решения, которые обеспечивают высокое качество выдачи при ограниченных вычислительных ресурсах.
Технический директор пояснила, что в экспериментах компании архитектура «энкодер-декодер» — где одна часть модели анализирует запрос и документы, а другая формирует ответ — при работе с большим объемом данных показала результаты лучше классических языковых моделей. Чтобы ускорение работы модели шло без потери качества, компания использовала подход Mixture of Experts (MoE).
Это принятая в индустрии архитектура, которая позволяет значительно увеличить количество параметров модели (очень условно — ее «знания»), не увеличивая при этом вычислительные затраты на каждый отдельный запрос.
Если обычная нейросетевая модель при каждом слове активирует все свои нейроны («плотная» модель), то MoE-модель активирует только малую часть своих мощностей («разреженная» модель). «Экспертами» в модели называют отдельные подсети, каждая из которых «учится» обрабатывать определенные типы данных. Один «эксперт» может хорошо разбираться в программировании, другой — в биологии, третий — в написании деловых писем.
Серажим отметила, что MoE позволяет задействовать только часть модели для генерации каждого следующего токена, что ускоряет работу и повышает эффективность.
«В «Поиске» модель должна одновременно работать с большим объемом данных и укладываться в жесткие ограничения по скорости и стоимости на каждом запросе. Нам удалось модифицировать архитектуру, добавив слои MoE. В совокупности все улучшения, включая создание гибридной архитектуры, позволили нам повысить качество и совокупно снизить стоимость инференса в три раза. В результате покрытие ИИ-ответами в Поиске (доля запросов, на которые Поиск сразу даёт генеративный ответ) выросло за год в 1,5 раза», — подытожила она. Инференсом в данном контексте называют процесс работы нейросети над генеративным ответом пользователю, задающему вопрос в поисковике.
Внедрение компанией сочетания архитектур MoE и «энкодер-декодер» из научных исследований в промышленный поиск показывает, как такие разработки переходят в практическое применение — уже с учетом жестких требований к скорости, стабильности и стоимости инфраструктуры.
Космонавтика
Японский лунный аппарат SLIM неожиданно вышел на связь из перевернутого положения 29.01.2024
Медицина
Алкоголь на ночь изменил структуру сна 29.01.2024
Биология
Ученые впервые увидели попытку шмелей вылечить свои раны 29.01.2024