Человек + ИИ

Время прочтения — 15 минут

Или как искусственный интеллект внедряется в жизнь творцов и не только

Содержание

Что тут вообще происходит?

В ближайшие несколько лет рынок искусственного интеллекта планирует взлететь до небес. По прогнозам UBS, ежегодные темпы роста составят 20%, а стоимость рынка к 2025 году достигнет 90 миллиардов долларов. А ChatGPT (популярный инструмент на базе ИИ) уже набрал 100 миллионов ежемесячных активных пользователей в течение двух месяцев после запуска.
Product Designer
Полина
Видя такие перспективы, мне стало интересно подробнее изучить возможности нашего с вами взаимодействия с ИИ. В статье расскажу о разных технологиях и инструментах на базе искусственного интеллекта, и поразмышляю об обоснованности и беспочвенности тревожных мыслей, что нас всех скоро заменят.
Как это было до 2023 года, когда случился ИИ-бум? Пробежимся по хронологии развития событий, дабы знать своего «врага» в лицо и понимать, сколько в целом таких «врагов» на данный момент у нас есть. Каких-либо математических уравнений не будет, можете выдохнуть.

GANs

Шёл 2014 год. Впервые заговорили о GAN (Generative Adversarial Network или генеративно-состязательные нейросети). Нейросеть была представлена компьютер сайнтистом, исследователем Ианом Гудфеллоу его коллегами. Они опубликовали работу, в которой описали концепцию GAN и продемонстрировали её эффективность в создании реалистичных изображений.
Изначально нейросеть тренировалась на большом количестве различных изображений и запоминала отличительные черты, например, лица людей, животных, автомобилей и т.д.
Вся суть работы GANs заключается в двух её составляющих: генератора и дискриминатора. Генератор пытается создать реалистичное изображение, а дискриминатор выступает как бы в роли критика, который пытается понять: это фейк или реальное изображение? Благодаря наличию дискриминатора, генерации GANs выглядят очень реалистично.
Эволюцией данной нейросети является StyleGAN. Это разработка от компании Nvidia, которая увидела свет в 2019 году и стала широко использоваться для генерации контента в играх и фильмах. Nvidia, кстати, до сих пор вносит хороший вклад в развитие нейросетей для преображения видео.

DeepDream

Это computer vision-программа от Александра Мордвинцева из Google. Она позволяет создавать уникальные и абстрактные визуальные образы, которые могут восприниматься как сюрреалистические и фантастические. Такая техника вызвала большой интерес и стала популярной среди художников, дизайнеров, а также энтузиастов компьютерного искусства.
Идея DeepDream заключается в том, чтобы передать изображение через CNN (Convolutional Neural Network/Свёрточную нейронную сеть). Затем оптимизировать и изменить исходное изображение, чтобы активировать или усилить определенные паттерны и фигуры, которые модель обнаружила в процессе своей работы.

CLIP

С появлением модели CLIP, разработанной компанией OpenAi в 2021 году, мы получили возможность использовать текстовые запросы для управления процессом генерации изображений.
Модель анализирует и связывает текстовые описания с изображениями, используя подход, называемый «контрастным обучением». Таким образом CLIP научилась понимать связь между текстом и изображениями без потребности в большом количестве размеченных данных.

DALL-E

OpenAi навели суеты не только выходом CLIP, но и новым инструментом для генерации изображений — DALL-E. Теперь мы получили возможность использовать текстовые промпты, описывая желаемые характеристики или сцены. Например, вы можете использовать текстовый промпт «блинчики на столе» или «кот в космосе», и получить соответствующие изображения.
В работе DALL-E помогают два основных компонента: VQ-GAN (новая разработка, основанная на концепции GAN) и GPT (Generative Pre-trained Transformer). Примерно так можно описать весь процесс взаимодействия двух моделей:
1
GPT принимает текстовое описание и преобразует его в вектор скрытых состояний — специальный числовой код, который содержит информацию о текстовом описании. Именно его понимает модель.
2
Затем этот вектор передается в модель обработки изображений VQ-GAN, которая декодирует его и генерирует соответствующее изображение.
В 2022 году в DALL-E добавили новые функции, Outpainting и Inpainting, которые сразу выделили нейронку среди конкурентов.

Что такое Outpainting и Inpainting?

Outpainting помогает «дорисовывать» изображение, расширяя его рамки. Согласно OpenAI: «Outpainting учитывает существующие визуальные элементы изображения: включая тени, отражения и текстуры для сохранения контекста исходного изображения». Inpainting, тем самым, помогает генерировать недостающие части, но уже внутри самого изображения. Таким образом мы можем создавать новые композиции, меняя объекты на изображении, либо вовсе их удаляя.

Stable Diffusion

Модель стала известна благодаря компании Stability AI в 2022 году. Она до сих пор оказывает влияние на развитие приложений, связанных с обработкой фотографий, на работу с анимацией, видеомонтажом и т.д. Слово «Diffusion» в названии нейронки присутствует не зря, она использует диффузию при генерации изображений.
Вкратце весь этот процесс генерации можно описать как проявление фотографий. Если подробнее, то процесс генерации состоит из следующих этапов:
1
Выбор начального изображения. Может быть случайным шумом или любой другой картинкой.
2
Шаги диффузии. Изображение проходит через несколько шагов диффузии, каждый из которых состоит из 2 этапов: «размытия» и «обновления».
— Шаг «размытия» приводит к эффекту размытия (логично) и снижению детализации изображения.
— Шаг «обновления»: модель принимает размытую картинку и генерирует обновленную версию, которая должна быть более четкой и детализированной.
3
Множество шагов. Процесс диффузии повторяется несколько раз (обычно сотни или тысячи), чтобы постепенно улучшать изображение на каждом шаге.
4
Завершение процесса. По достижении последнего шага диффузии мы получаем финальное изображение.
Stable Diffusion интересна не только из-за генерации проработанных, реалистичных изображений, но и из-за того, что это единственная модель генерации изображений с полностью открытым исходным кодом, в отличие от DALL-E и Midjourney (о которой расскажу дальше).

Midjourney

Переходим к ещё одному лидеру, который появился в 2022, благодаря независимой исследовательской лаборатории Midjourney, Inc. Напомню, что, в отличие от Stable Diffusion, Midjourney имеет закрытый код.
Нейросеть быстро привлекла к себе внимание, благодаря особенно красивым генерациям. Их секрет достаточно прост: создатели Midjourney открыли доступ к результатам генераций для всех пользователей и, тем самым, позволили последним давать оценку финальным изображениям через интерфейс Discord’a. Таким образом, всё больше и больше людей принимало участие в «тренировке» Midjourney и это позволило ей быстрее прокачаться и понять, что именно нравится нам, людям.
На данный момент уже доступно 5 версий Midjourney. Но с учётом 5.1 и 5.2, имеющих свои особенности, можно сказать, что их уже целых 7. В отличие от DALL-E, мы можем пользоваться предыдущими версиями, а в отличие от Stable Diffusion — эти версии реально отличаются по степени реалистичности между собой.

ChatGPT

Хоть изначально я хотела сосредоточиться только на нейросетях по генерации изображений, но всё же не могу не упомянуть и одного универсального солдата. О ком же это я? Конечно же, о ChatGPT. Он входит в семейство моделей GPT (Generative Pre-trained Transformer), которые используют для генерации текста. ChatGPT был представлен как бесплатный чат-бот на основе нейронной сети в ноябре 2022 года компанией OpenAI.

ChatGPT уже помогает со многими задачами

Написанием текста, работы с его стилистикой
Составлением слоганов
Исправлением ошибок в коде, либо их поиском
Может стать для вас коучем: помочь отредактировать резюме, помочь с обучением английскому
И дальше столько пунктов, сколько ваша фантазия позволит
Однако для этого необходимо уметь с ним общаться на языке промптов. Например, уже есть довольно обширная база промптов для чата, которая поможет вам сделать из него кого-то в нужной роли.
На данный момент информация, которой оперирует free-версия чата, ограничена 2021 годом. Часто можно столкнуться с непониманием, если будете спрашивать нейронку о событиях, случившихся в 2022 году.
Тут, например, чат не смог понять, что такое Midjourney:
Однако платные пользователи получили значимое преимущество при использовании приложения ChatGPT для iOS. Теперь можно получить доступ к информации, собираемой поисковым сервисом Microsoft Bing.

2023

И снова мы пришли к отправной точке — 2023 году.

Крупные компании внедряют ИИ во всё новые и новые сервисы

Adobe и нейросеть для генерации изображений Firefly.
Microsoft и ИИ инструмент для работы с графикой Designer, а также Bing и ChatGPT 4 в поисковой строке.
Google и AI помощник Bard, который планируют внедрять, либо внедряют во все сервисы компании.
Yandex и нейрочат YandexGPT, а также AI-генератор изображений Шедеврум.
Opera Software и AI помощник Aria, который совсем недавно был добавлен в обновлённую версию браузера.
Сбер и нейросеть для генерации изображений Kandinsky.
И многие другие — список продолжает пополняться чуть ли не ежедневно.

Используют ИИ во все новых сферах

Фудтех
Финтех
Медицина
Промышленность
Транспорт
Государственное управление
и т.д.
Становится очевидно, что искусственный интеллект внедряется в нашу жизнь все глубже и глубже, делая во многом её проще и удобнее. Однако есть свою нюансы, поэтому предлагаю рассмотреть и негативные последствия ИИ-бума, которые мы можем наблюдать на данный момент.

AI наводит суету?

Всё бы хорошо, но без трудностей не обойтись. На данный момент существует три основных проблемы, связанных с развитием искусственного интеллекта.

Проблема дипфейков

С быстрым развитием нейросетей становится всё сложнее отличить выдумку от реальности. Например, вспомним случай, когда фото Папы Римского в пуховике наделало шуму, потому что многие приняли его за чистую монету.
Ещё больший скандал разразился из-за фото, которое победило на престижном конкурсе от Sony, а на деле оказалось, что оно было сгенерировано нейросетью.

Проблема авторских прав

В своих генерациях нейронки часто используют фотографии или иллюстрации, которые уже были ранее кем-то нарисованы. Таким образом, на генерациях иногда проскакивают watermarks, либо скопированные части оригиналов.
Getty, сервис лицензирования изображений, подал иск против разработчиков Stable Diffusion, обвиняя их в незаконном использовании своих фотографий. В итоге 12 миллионов изображений, защищенных авторским правом, а также их описания и метаданные были использованы для обучения Stable Diffusion. За каждое изображение требовали компенсацию в $150,000, общая сумма составила 1,8 триллиона долларов.

Проблема фейковых новостей

Помимо лиц знаменитостей большим спросом на потребление стали пользоваться и фейковые новости. Один взрыв возле Пентагона чего стоил.

А есть ли выход?

Поговорили немного о проблемах, но как же с ними быть, и как планируют их решать? На данный момент единой системы контроля, что кому принадлежит в генерации нейронок пока нет. Лишь список общих требований, чтобы:
Разработчики предпринимали меры по прозрачности обучения моделей, предоставляли информацию, на чём именно их обучают.
Творцы, в свою очередь, более активно отслеживали копирование своего творчества.
Компании внимательнее отслеживали использование нелегальных ИИ-творений для своих промо.
И ещё одно дополнение — мыслить критически и не сразу доверять увиденному. Так мы сможем вовремя избегать распространения очередных фейковых новостей и изображений. Как минимум можно следовать следующим правилам самостоятельного выявлении фейков:
1
Артефакты. Обратите внимание на наличие неестественных текстур, повторяющихся узоров или аномальных деталей в изображении.
2
Сравнение. Вспомните, как обычно выглядит конкретный объект в реальности.
3
Контекст. Изучите контекст, в котором была найдена картинка. Например, если она была найдена на специализированном сайте по генерации изображений, то с большей вероятностью перед вами фейк.
Скорее всего, в дальнейшем всё придёт к более чёткому регулированию работы ИИ. Как вариант — к развитию большого количества сервисов по поиску заимствованных изображений, распознаванию дипфейков и т.д. Вот, например, Google уже планируют помечать все искусственно сгенерированные изображения в поиске.

Подводя итоги

Как видим, в нашем «дивном новом мире» есть как хорошее, так и плохое. Сторониться новых технологий не стоит — нейросети действительно могут снизить временные затраты на ту или иную работу в разы, помогают нам оставаться креативными, даже есть в какой-то день что-то пошло не так. А от нас остаётся лишь только не забывать следить за выходом новых крутых инструментов.
Если что ChatGPT поддерживает мои слова и уже выдал такое решение примера из названия статьи: