GPT педагогам. 350 промптов повышающих производительность в 1000 раз - страница 13



Нейросеть Kandinsky 2.1, разработанная компанией «Сбер», представляет собой новую генеративную модель, способную создавать высококачественные изображения на основе их текстового описания на естественном языке. Именно эту нейросеть мы использовали для создания обложки нашего пособия. Эта модель также может комбинировать несколько изображений, изменять их в соответствии с текстовым описанием, генерировать иллюстрации, которые похожи на заданное изображение, дорисовывать недостающие части и формировать изображения в режиме бесконечного полотна. Сервис понимает запросы на 101 языке, включая русский и английский, и способен рисовать в различных стилях, таких как 3D-рендеринг, картина маслом, рисунок карандашом, студийное фото, хохлома, ренессанс, классицизм, аниме, мозаика и другие.

Kandinsky 2.1 является развитием предыдущей версии AI-системы, которая была обучена на одном миллиарде пар «текст – изображение». Обновленная модель также была обучена на 170 миллионах иллюстраций высокого разрешения с текстовыми описаниями, а также на датасете из двух миллионов примеров, содержащих тексты, лица людей и другие сложные графические элементы. В основе сервиса также лежит новая модель автоэнкодера, которая используется в качестве декодера векторных представлений изображений. Представители компании «Сбер» отмечают, что эти улучшения значительно повышают качество генерируемых иллюстраций в высоком разрешении.

Система закадрового перевода видео, разработанная компанией «Яндекс», представляет собой инновационное решение, которое позволяет пользователям просматривать видео с русской озвучкой на различных иностранных языках, таких как английский, немецкий, французский, испанский и китайский. Этот уникальный сервис доступен в «Яндекс. Браузере» для операционных систем Windows, macOS, Linux и Android, а также в официальном приложении «Яндекс» для устройств на базе iOS и Android. Для того чтобы воспользоваться переводом, пользователю необходимо всего лишь нажать на специальную кнопку с логотипом «Яндекс. Переводчика». Кроме того, система поддерживает перевод видео, размещенных на таких популярных платформах, как YouTube, Vimeo, Twitch и другие. Главное условие – видео должно быть доступно для общего просмотра, а его продолжительность не должна превышать 4 часа.

Основой функционирования сервиса закадрового перевода «Яндекса» является использование нескольких передовых технологий, разработанных этой компанией. Среди них можно выделить технологии распознавания и синтеза речи, биометрии и машинного перевода, основанные на сложных нейросетевых моделях. Сначала система распознавания речи преобразует произнесенные слова в кадре в текст, автоматически расставляет знаки препинания и разделяет слова на смысловые сегменты. Затем технология машинного перевода переводит полученный текст на русский язык, а модуль синтеза речи озвучивает результат. Этот переводный текст затем накладывается на видео таким образом, чтобы фразы в оригинале и переводе имели одинаковую длину. Для распознавания голосов разных дикторов на видео применяется еще одна нейросеть, которая анализирует спектрограмму звуковой дорожки и определяет фрагменты, произнесенные разными говорящими. Благодаря этой технологии становится возможным определить, кто из спикеров что сказал, это значительно облегчает восприятие перевода в случае, когда на видео присутствует большое количество действующих лиц.