Ural State University of Architecture and Art

ISSN 1990-4126

Architecton: Proceedings of Higher Education №3 (83) September 2023

Design

Kashin Ilya V.

PhD. (Physics and Mathematics), Associate Professor.
Ural Federal University 
ORCID 0000-0001-9526-8779

Russia, Yekaterinburg, e-mail: i.v.kashin@urfu.ru

The apology of a creator in the age of neural networks

УДК: 7.011.2
DOI: 10.47055/19904126_2023_3(83)_22

Abstract

The paper presents a thorough practical study of the generative neural networks phenomenon from the position of possible substitution of essentially creative human labor. The functionality and peculiarities of graphic image reconstruction according to the user's textual request were analyzed. From the economic, market and ideological points of view, and as a result of visual analysis of a typical generation result we found that this phenomenon appears as a «similarity machine», which has the opposite meaning in relation to the essence of human creative potential. This relation opens new dialectical avenues to understanding the manifestations of individuality in the visual arts.

Keywords: artificial intelligence, generative neural networks, human creative potential, personification in creativity

Введение

Мы являемся свидетелями зарождения качественно новых тенденций в развитии информационных технологий, доступных широкому кругу пользователей по всему миру. Во многом составляя идейное продолжение естественных принципов рыночной экономики, по которым здоровая конкурентная борьба стимулирует переход от массового серийного производства к индивидуальному и персонифицированному, современная цифровая среда вбирает и органично встраивает в себя все более тонкие и изощренные инструменты для предугадывания и исполнения желаний конкретного пользователя «здесь и сейчас».

В авангарде данного тренда укрепляются алгоритмы машинного обучения в силу большого методологического и технического прорыва в области «глубинного обучения» [1, 2]: высокопроизводительной автономной настройки многоуровневых математических моделей. Подобные алгоритмы способны производить поиск в интернете [3], машинный перевод с языка на язык [4], распознавание и стенографию устной речи [5], увеличение размеров графического изображения без потери качества [6] и многое другое.

Польза применения подобного инструментария в повседневных делах не вызывает сомнений. Однако только в тех случаях, когда ожидаемый образ результата, генерируемого машиной, терпит конкретику и приветствует ее абсолютизацию. Иными словами, когда удовлетворение человеческого запроса целиком и полностью исчерпывается фактом предоставления.

Однако видение ситуации радикально меняется, если обратить пристальное внимание на способность таких алгоритмов (в подавляющем большинстве случаев – нейронных сетей) воссоздавать ранее не существующие информационные объекты. Реализуя «ассоциативный» принцип, математическая модель способна генерировать дополнительных «представителей» того класса объектов, на котором она была «обучена». Яркими примерами служат нейронная сеть Midjourney [7], способная реконструировать графическое изображение по текстовому запросу пользователя, и обретающая все возрастающую популярность нейронная сеть ChatGPT [8], способная давать информативные ответы на текстовые запросы.

Нельзя не отметить, что качество такого генеративного отклика модели возрастает неуклонно, и возрастает ускоряющимися темпами. Воссоздание фотографических портретов несуществующих людей, трудно отличимых от реальных цифровых снимков, сборка иллюстраций с наперед задаваемым сюжетом и стилем – все это предоставляется пользователю интернета за умеренную плату или вовсе в свободном доступе.

В связи с этим возникает закономерный вопрос: «Имеет ли данный генеративный функционал способность заместить собой творческий потенциал человека?». Избегая излишнего пафоса и добавляя нужный социальный контекст, этот же вопрос следует сформулировать так: «Смогут ли подобные генеративные технологии исчерпать востребованность Художника в современном обществе?».

Поиску обстоятельного и аргументированного ответа и посвящена настоящая работа.

Удивительно наблюдать следующий контраст: в указанной конкретной формулировке обсуждение данного вопроса можно без труда обнаружить на страницах тематических интернет-ресурсов [9–11], когда как в научной литературе он оказывается совершенно не представленным. С одной стороны, внимание широкой сетевой публики очевидно доказывает востребованность поиска решения, приемлемого в обществе. С другой стороны, попытка поиска такого решения на страницах научных публикаций [12–14] дает результат, противоположный ожидаемому: в подавляющем большинстве работ аргументация ведется исключительно в инструментальном ключе, т.е. анализируется прикладная польза тех или иных цифровых средств на основе искусственного интеллекта для художника в его творческом процессе и среде. Таким образом, диалектическое противоречие творчества и «генератива» даже не имеет шанса быть строго оформленным. Отчасти это можно объяснить поощряемой и воспроизводимой тенденцией в науке к последовательности и наследственности, что нередко приводит к неявному противлению контртрендам или простому неучастию в них. Но для ищущего решение читателя это приводит лишь к фрустрации отсутствия отклика серьезного мира на волнующий вопрос. Она оставляет давящее ощущение неуслышанности и образует лобовую атаку на принцип открытого выражения в творчестве, поскольку посягает на незыблемость права человека на оригинальность.

В настоящей работе решение предстоит выстроить на двух основаниях. Первое из них представляет собой экологичное «подсвечивание» двух полюсов мотивации Художника: «чисто прикладной» (процесс технологизируем, результат объективно функционален) и «чисто творческий» (процесс индивидуален, результат неограничен в пространстве его интерпретаций). Такое рассмотрение представляется необходимым, поскольку явно укажет, как именно новые цифровые технологии входят в незримую коммуникацию с Творцом, а также поможет сформулировать принципы такой коммуникации, ориентированные на осуществление тесного контакта без угроз потери человеческой аутентичности.

Второе основание выражается в практическом исследовании характеристик графических изображений, генерируемых современными алгоритмами на основе нейронных сетей. В качестве его результата будут выделены ключевые особенности данных алгоритмов и воспроизводимого ими визуального ряда, свидетельствующие в пользу имманентного отсутствия в математических моделях неотъемлемых черт, определяющих Творца.

Фактор творца и фактор дельца

Человек невероятно сложен с любого угла научного обзора. Главная причина этого – его постоянная открытость окружению, в котором он находится. Такой неотъемлемый контакт служит источником непрерывных метаморфоз, постоянно переопределяющих человека. Перед таким сущностным непостоянством и пасует традиционная научная методология, предпочитая оставлять вне фокуса все то, что нельзя назвать частным, возникшим из общего.

Первозданным проявлением такового, несомненно, является творчество. Мотивация человека к нему, т. е. все то, что побуждает создавать, находится посередине между целиком внутренним миром человека и целиком внешним миром его окружения. Иначе говоря, она возникает как реакция на контакт, на коммуникацию с окружающей действительностью. И именно потому, что в фокусе оказывается диалог, его специфику мы рассматриваем сразу с двух указанных опорных позиций.

Их тесное переплетение образует творческий путь человека. Оно обязательно, так как при его нехватке человек устает от самого себя, а мир устает от отсутствия человека. Стремление восполнить такую нехватку порождает своего рода притяжение, которое артикулируется по-разному, в зависимости от точки зрения. Для самого человека это предстает в виде желания самовыражения, т.е. разделения с миром чего-то, взращенного в собственном лоне. С другой стороны, мир жаждет такого разделения с ним и культурно оформляет это в виде востребованности Творца его публикой. Запускаемый тем самым процесс взаимного обмена создает интеллектуально-творческую среду, которая, укрепляясь и утверждаясь в действительности, образует реферируемый социальный феномен.

Однако такое видение, несмотря на всю присущую ему гуманность и экологичность, едва ли претендует на достаточно плотное сопряжение с реальностью. Извлекая из него анестезирующий компонент, можно заявить прямо, что ожидание Человека-Творца от представления его произведения миру, конечно же, имеет в основе отражение публикой аутентичности и ценности творения. Но не менее важным фактором является сугубо экономический: Творец ради сохранения статуса-кво должен взять на себя банальное обязательство по поддержанию своего уровня жизни и достатка.

Столкнувшись с порой суровыми реалиями рынка, перегретого на цифровых платформах потоком различных предложений и потребителей, Художник может найти его холодным и отчуждённым, не желающим включать в себя то, что есть стремление выразить. И сейчас очень важно предупредить о том, что такое ощущение возникает из иллюзорного представления простоты и однородности рынка, а также непоколебимой устойчивости трендов его развития – безотносительно вовлечения или невовлечения в него конкретной индивидуальности (человека). Нельзя не согласиться, что саморегуляция рынка обеспечивает ему (рынку) прогресс при практически любых условиях. Однако этот факт никоим образом не означает, что вклад Художника сегодня или завтра не востребован и не ожидаем. Он незрим, поскольку – адресно – никем не артикулируется. Но обострившийся голод от такого вклада явно проявляется в виде застоя на творческом социальном поле. Поэтому крайне важно на этом этапе обеспечить Творцу уверенную поддержку, выражаемую в понятных экологичных посылах, применимых на практике в каждом конкретном случае.

В настоящей работе для этой цели мы предостерегаем от употребления в индивидуально-творческом контексте понятия «сравнения» и, тем более, процедуры, которая кроется за ним. На первый взгляд данное суждение может показаться тривиальным, однако в практической плоскости он принимает достаточно понятные и при этом очень важные очертания. С одной стороны, само слово «сравнение» отсылает к приведению Художника к некому общему знаменателю с какими-то требованиями или «конкурентами», ради вынесения вердикта относительно его самого. И неотвратимость такого вердикта стесняет и загоняет в рамки творческую свободу человека, даже если он сам и выступал в роли инициатора процесса.

Но, с другой стороны, экономика рынка в соответствии со своей сущностью склонна перекраивать все, до чего она дотягивается, в числа и рубли для возможности объективного, математического сравнения и бесстрастной оптимизации. Вспоминая теперь, что мотивация к творчеству лежит посередине между внутренним и внешним, получаем, что в реальном мире Творец оказывается обязан создавать и соблюдать свой собственный баланс между аутентичностью и измеряемостью. И драма заключается в том, что для каждого человека обретение и удержание этого баланса – интимная задача, подход к которой ищется буквально на ощупь, без какой-либо опоры на науку или авторитеты. Поэтому одной из ключевых задач, решаемых в настоящей работе, является семантическая демаркация указанных противоборствующих тенденций. И феномен генеративных алгоритмов машинного обучения предстает как примечательный и крайне эффективный инструмент для выявления, прояснения и артикуляции ранее скрытых взаимосвязей.

Обратимся к базовому принципу работы алгоритмов для генерации графических изображений. Для того чтобы математическая модель обрела соответствующий функционал, необходимо подвергнуть ее процедуре «обучения» на наборе исходных эталонных данных [1]. Полезно внимательно рассмотреть несколько аспектов этого процесса.

Во-первых, исходные данные служат единственным источником связи абстрактной модели с реальным миром. В текущем контексте это означает, что ожидаемая эстетическая наполненность генерируемых изображений возникает исключительно в виде сложной, но все-таки аналогии с тем, что было подгружено в алгоритм в качестве эталонов. Отсюда явственно следует, что модель способна лишь к имитации «представления о прекрасном» в формате «китайской комнаты» [15].

Во-вторых, способ организации «обучения» представляет собой подстройку внутренних параметров модели, для того чтобы максимально увеличивать качество воспроизведения набора эталонных данных в целом. Это качество представляется в виде числа, имеющего функциональную связь с внутренними параметрами модели. Поэтому указанная подстройка представляет собой задачу оптимизации, сходную по структуре с принципами работы рыночных механизмов, о которых шла речь выше.

И, наконец, в-третьих, такое «мерило» качества в большинстве случаев имеет смысл «подобия»: параметры модели адаптируют таким образом, чтобы общее подобие реконструируемых изображений эталонным стремилось к наибольшему из возможных значений. Таким образом, мы обнаруживаем, что именно уподобление различным стилям и техникам изобразительного искусства оказывается сегодня доступным для алгоритмизации и, следовательно, для механизации.

Сегодняшнее развитие как программной составляющей, так и мощи вычислительного оборудования позволяет говорить о том, что генеративные алгоритмы достигли практически неограниченной универсальности, причем их производительность позволяет обрабатывать запросы пользователя без существенных задержек, в режиме реального времени, онлайн [7]. Если рассмотреть этот результат технического прогресса в социальном контексте, то, в силу обширности охвата, из типового утилитарного цифрового инструмента художника и дизайнера он трансформируется в целостную реферируемую форму. Эта форма контрастно подсвечивает как самостоятельность скрывающегося за ней феномена, так и его семантические контуры. А это, в свою очередь, открывает возможность учреждения отношений к данному феномену как к отдельной сущности. Здесь важно подчеркнуть, что каждая вовлеченная в указанный социальный контекст творческая индивидуальность неотвратимо выстраивает эти отношения ради обретения описанного выше баланса.

Теперь, когда задача о демаркации конфронтирующих стремлений к аутентичности и измеряемости в каждом конкретном случае Человека-Творца оформилась в виде понятных объектных отношений, мы можем приступить к формулировке практических рекомендаций. Итак, генеративные алгоритмы представляют собой чрезвычайно эффективные «машины подобия», чья польза черпается из удовлетворения запроса рынка на типовой визуальный контент, органично вписывающийся в актуальные на сегодня тренды. И именно это составляет содержание вызова, который бросает Художнику рынок: для обретения, сохранения, удержания и развития своей сущности Творца от подобия необходимо отталкиваться, как от фундамента, в противоположную от него сторону к антиподобию. Таким образом, культивируя оригинальное понимание визуальной эстетики, Художник становится способным к представлению квинтэссенции своего творчества в предельно допустимой форме. Причем эта форма не лишается возможности диалога с подобием и машинами, его генерирующими. Это создает дополнительные грани творческой рефлексии и новые, понятные возможности для самоутверждения Художника в таком экологичном контакте, не требующем сравнения.

В итоге, нам удалось сформулировать практические рекомендации, в соответствии с которыми Творец сможет самостоятельно работать с собственным пониманием своей индивидуальной креативности, которую – что немаловажно – всегда можно обратить в форму личного бренда для представления на рынке.

Визуальная составляющая

Исключительность права Творца на формирование, обладание, представление и неограниченную трансформацию персонифицированного эстетического чувства можно также вывести в результате анализа генерируемых алгоритмами графических изображений. В качестве источника для таковых в настоящей работе применялся проект Midjourney [7]. Он заслуженно занимает одну из лидирующих позиций на рынке услуг автоматической генерации изображений по текстовому запросу пользователя: регулярные обновления ядра математических алгоритмов возводят качество и детализацию проработки на все более высокий уровень.

Для анализа были отобраны реалистичные портреты людей, воссозданные по типовым запросам в формате «photorealistic portrait of beautiful (woman/man), style details (рис.1)

Данный сюжет был использован, поскольку, во-первых, позволяет производить прямое сравнение с традиционными цифровыми снимками, сделанными фотографами; во-вторых, он задает в качестве требования значительную структурную и семантическую неоднородность визуального построения.

Даже при первом поверхностном взгляде можно заметить, что, несмотря на общую правильность композиции, на изображениях практически отсутствует напряжение между фигурой и фоном. Это способно вызвать у зрителя внутренний дискомфорт, поскольку ничего не сообщается о том, какой смысл закладывался в представление персонажа в предлагаемых визуальных обстоятельствах. И это совершенно неудивительно, учитывая принципы работы генеративных алгоритмов.

Рис. 1. Примеры генерации реалистичных портретов людей с помощью Midjourney [7]

Общее подобие в ходе «обучения» модели и последующей реконструкции результата наводится на все изображение целиком. И одним из источников этого подобия является «структурное замешивание» фигуры и фона, что и приводит к заметному снижению визуального напряжения.

Однако более существенным оказывается рассмотрение первичного источника подобия. Машинная реконструкция начинается с генерации отдельных графических сегментов на основе текстового запроса пользователя и эталонных данных, служащих опорой пройденного «обучения». Таким образом, для каждого из таких сегментов (отдельно) предельно допустимое подобие обеспечивается сразу, а их «гладкая сшивка» в единую композицию производится как вторичный этап. Здесь ключевым моментом оказывается то, что подобный синтез в результате воссоздает картину, «выхолощенную» подобием как в целостности, так и в деталях. В силу этого изображение получается «инертным» – оно не стимулирует зрителя к активному вовлечению в графический сюжет. Скорее наоборот – воплощается стремление к генерации «обыденного» визуального ряда, к которому применимо единственное требование – заполнять собой отведенное пространство и «не отсвечивать».

Все это входит в резкий контраст с семантической системой «живых» фотографий и произведений изобразительного искусства, главным образом потому, что это – открытая система. Даже если общий сюжет и контекст считываются с картины однозначно и они находятся в самодостаточной гармонии, то манера написания работы, техника и стиль оказываются «валентными», т.е. требующими смыслового завершения зрителем, и взывающими к этому завершению. Выражая феномен искусства как такового в подобной оптике, мы подчеркиваем его роль объединителя индивидуальностей в культурное общество, на что алгоритмы оказываются неспособны в силу их собственной базовой архитектуры.

Отдельным весомым аргументом также мы выделяем то, что даже при очень детальном и предельно конкретном текстовом запросе пользователя математическая модель реконструирует качественно различные изображения (рис. 2). С технической точки зрения, данный эффект намеренно закладывается путем старта реконструкции не с пустого листа, а с визуального шума, и включением фактора случайности в порядок выбора, размещения и синтеза первичных сегментов. Это вносит необходимое разнообразие в галерею генерируемых изображений и создает «магическую» атмосферу непредсказуемости для пользователя, ищущего развлечения и обыденного вдохновения.

Однако подобная алеаторность результата порождает только «кажимость» того, что мы можем назвать творческим произволом Человека-Художника. Фундаментальное отличие заключается в том, что при генерации случайных чисел – а именно это служит источником любой неопределенности в анализируемой модели – любой возможный исход равноценен, и поэтому он равновероятен. Реальная же развертка свободной творческой мысли – сложный, сугубо индивидуальный психический процесс на открытой системе, в котором происходит интимный диалог Художника и окружающего мира. И эта сложность не порождает ни повод, ни право подменять ее статистикой и вероятностным анализом.

Рис. 2. Иллюстрация качественного разнообразия изображений, генерируемых Midjouney [7].
Текстовые запросы: сверху-слева – «Spatial User Interface, Clear Craze, White Background,
Black and Red Detail, Retro Futurism, Cover Magazine, Cooling Fabrics, Tech, Template»;
сверху-справа – «Super Surveillance»; снизу-слева – «Internet Filtering, Internet Monitoring»;
снизу-справа– «A Data Driven Office»

Здесь уместно вспомнить, что даже в нецифровом искусстве элемент случайности вовлекался как значимый или даже определяющий. Примером могут служить произведения генеративного искусства [16], в случае которых «кистью» управляет природа, по замысловатым, но все же механическим законам. Или же можно упомянуть течение дада, в котором случайность могла возводиться даже в смыслообразующую позицию [17].

Однако во всех подобных случаях Творец использует целостное многообразие возможных исходов как художественный прием и инструмент. Конкретный исход, который он предлагает зрителю, находится в неразрывном контакте со всем остальным многообразием исходов, оставшихся нереализованными, но потенциальными. Тогда как единственность математического вероятностного исхода рвет любую связующую нить с любой статистикой. В силу этого Художник оказывается способен создавать и трансформировать ту область, в пределах которой он разрешает развиться неопределенности. И конкретный результат развития находится в диалоге с формой данной области. Обычно это происходит посредством невизуальных средств, и фактически воплощает принцип открытости произведения искусства для смысло-довершения его зрителем.

Заключение

Заменят ли нейронные сети живых Художников? Проведенные в настоящей работе анализ и рассуждения однозначно указывают, что нет. Причина этого главным образом заключается в самой математической архитектуре генеративных алгоритмов. Она выстроена вокруг достижения предельно доступной степени подобия реконструируемого изображения предоставленным заранее эстетически наполненным образцам. А требуемое разнообразие получающегося результата обеспечивается розыгрышем случайных чисел. Таким образом, мы наблюдаем уникальное становление «машины подобия», которая хороша в данном функционале, но им же и ограничена.

Однако оригинальное эстетическое видение Художника как раз и созидается преодолением этих ограничений. Мы показали, что творческая свобода и самовыражение обнаруживают себя в диалоге того, что изображено, с тем, что могло бы быть изображено. В этот диалог может – незримо или явно – вовлекаться личность Человека-Творца. Кроме того, он оказывается открыт для зрителя, для формирования им индивидуального переживания произведения искусства и дальнейшей трансформации его в культурный опыт.

References

1. Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. Cambridge: MIT Press.

2. Pastis, S. (2023). As A.I. spreads through the office, companies are rethinking how they deal with data. [Online], Fortune. Available at: https://fortune.com/2023/07/14/ai-data-privacy-security-enterprise-brainstorm-tech/  [Accessed 17 Jul. 2023]

3. You.com. (2023). AI chatbot to search the web. [Online], Available at: https://you.com/  [Accessed 17 Jul. 2023]

4. DeepL. (2023). DeepL Translate. [Online], Available at: https://www.deepl.com/  [Accessed 17 Jul. 2023]

5. Google. (2023). Google Voice Input. [Online], Available at: https://docs.google.com/  [Accessed 17 Jul. 2023]

6. PhotoEnlarger.com. (2023). Free tool to enlarge your photo or image online. [Online], Available at: https://www.photoenlarger.com/  [Accessed 17 Jul. 2023]

7. Holz, D. et al. (2023). Midjourney. [Online], Available at: https://www.midjourney.com/  [Accessed 17 Jul. 2023]

8. OpenAI. (2023). ChatGPT. [Online], Available at: https://openai.com/blog/chatgpt  [Accessed 17 Jul. 2023]

9. Karaseva, E. (2023). Digital canvas: could neural networks replace real painters. [Online], Izvestiya. Available at: https://iz.ru/1444899/ekaterina-karaseva/tcifrovoi-kholst-smogut-li-neiroseti-zaniat-mesto-realnykh-khudozhnikov  [Accessed 17 Jul. 2023] (in Russian)

10. Sebrant, A. (2022). A dream tool or existential threat: could neural networks replace an artist. [Online], Forbes. Available at: https://www.forbes.ru/mneniya/473803-instrument-mecty-ili-ekzistencial-naa-ugroza-smozet-li-nejroset-zamenit-hudoznika  [Accessed 17 Jul. 2023] (in Russian)

11. Vlasova, V. (2023). NNeral networks as painters: a means rather than substitute. [Online], InScience. Available at: https://inscience.news/ru/article/science-and-art/11911  [Accessed 17 Jul. 2023] (in Russian)

12. Morkovkin, Y.A., Novichikhina, A.A., and Zamulin, I.S. (2021). Artificial Intelligence as a tool of modern art. Vestnik KhGU im. N.F. Katanova. Volume 1, No. 35, pp. 55–59. (in Russian)

13. Shkalenko, A.V. and Fadeeva, E.A. (2022). Impact of artificial intelligence on creative industries: trends and prospects. Vestnik Volgogradskogo gosudarstvennogo universiteta. Ekonomika. Volume 24, No. 3, pp. 44–59. (in Russian)

14. Leichenko, N.M. (2022). Analytical review of domestic practices in the application of neural network and innovative technologies in the field of art. Digitalization. Volume 3, No. 4, pp. 8–19. (in Russian)

15. Searle, J.R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences. Volume 3, pp. 417–457.

16. Shannon, T. (2010). Tom Shannon: The painter and the pendulum. [Online]. Available at: https://www.youtube.com/watch?v=OPA-rQyKeLY  [Accessed 17 Jul. 2023]

17. Richter, H. (2018). Dada – an art and an antiart. Moscow: Hylaea, pp. 71–81. (in Russian)

Citation link

Kashin, I.V. The apology of a creator in the age of neural networks //Architecton: Proceedings of Higher Education. – 2023. – №3(83). – URL: http://archvuz.ru/en/2023_3/22/  – doi: 10.47055/19904126_2023_3(83)_22


Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons "Attrubution-ShareALike" ("Атрибуция - на тех же условиях"). 4.0 Всемирная


Receipt date: 21.07.2023
Views: 124