AI vs Human: анализ различий между генерацией и человеческим авторством на HSE Design

КОНЦЕПЦИЯ

Искусственный интеллект в последние годы всё больше и больше проникает в человеческий быт, хобби и работу. Его стремительное развитие затронуло и меня: я уже около года серьезно изучаю генеративный искусственный интеллект в качестве хобби. Особенный интерес для меня представляют модели, способные работать с текстом и, в особенности, его самостоятельно создавать.

При выборе темы и подбора соответствующего датасета я руководствовалась собственным интересом к данной тематике и достаточно обширным опытом: за время своего увлечения мне удалось пообщаться и попробовать в деле достаточно большое количество моделей.

Для поиска датасета, изучающего текст нейросетей, я использовала ресурс Кaggle. На нем я нашла интересующий меня файл: сравнения текста, созданного ИИ и текста человека. На странице датасета указано:

«Он (датасет) разработан, чтобы помочь исследователям, специалистам по обработке данных и энтузиастам машинного обучения изучить, чем текст, написанный ИИ, отличается от текста, написанного человеком, с точки зрения структуры, эмоционального содержания, стиля и лингвистической сложности.»

Мне хотелось бы визуально продемонстрировать эти различия с помощью диаграмм. Для более полного анализа я использованы следующие типы:

СТОЛБЧАТАЯ ДИАГРАММА;
ГИСТОГРАММА;
БОКСПЛОТ;
СЛОЖЕННАЯ ГИСТОГРАММА;
ВИОЛОНЧЕЛЬНЫЙ ГРАФИК.

Эти виды графиков помогут мне наглядно представить информацию, а читателю, в свою очередь, так будет легче воспринимать данные, которые будут мной описаны.

ОБРАБОТКА ДАННЫХ И ВИЗУАЛЬНЫЙ СТИЛЬ

В самом начале работы я загрузила все необходимые библиотеки и датасет в формате CSV с помощью Pandas.

Исходный размер 1360x594

ПАЛИТРА

Также я подобрала цветовую палитру в зеленых оттенках.

Зеленый цвет ассоциируется у меня с фильмом «Матрица», где искусственный интеллект был сюжетно противопоставлен человеку. Тем не менее, я сознательно сделала оттенки мягче, чтобы добавить в лонгрид больше природных мотивов, как раз-таки отделяя его от упомянутого фильма: я считаю, в конечном итоге наш мир придет к симбиозу ИИ и человеческого разума. Людской вклад здесь и отмечен приглушением тонов.

Исходный размер 3508x2140

Благодаря внутренним возможностям Google Colab мне удалось применить зеленую цветовую палитру к графикам и диаграммам, которые подкрепляют исследуемые данные визуализацией.

Помимо этого, в проекте была задействована платформа Carbon Now, которая помогла мне изменить цветовую палитру кода.

Чтобы подобранная палитра отобразилась на графиках, после добавления библиотеки Pandas я добавила несколько строк, которые меняли оригинальные цвета Google Colab на те, которые были необходимы мне:

Исходный размер 1360x966

Идея с природными оттенками пришла ко мне не сразу. Прежде чем она появилась, был создан код и наименования цветов. Чтобы уделить больше времени визуализации, было принято решение не исправлять названия в уже готовом тексте, а изменить только HEX-коды оттенков. Получилась своеобразная отсылка на прошлую вариацию совсем уж «матричных» цветов проекта.

1. СТОЛБЧАТАЯ ДИАГРАММА

Найденный мной датасет оценивает текста людей и генеративного искусственного интеллекта по различным параметрам: указывается длина в словах, в символах, оценивается качество и настроение.

Помимо этих параметров, рядом с каждым из текстов, собранных в датасете, указывается тематика. Мне стало любопытно сравнить, какие темы наиболее популярны у человека и у ИИ. Для удобства названия параметров написаны в оригинале. Например HUMAN для человеческих текстов и AI для тех, что были написаны искусственным интеллектом.

Исходный размер 1189x590

Первым делом я сравнила темы, чаще всего появляющиеся в нейросетевых текстах. Так получился топ-10 наиболее частых, где можно заметить, что в датасете тематика науки занимает первое место по популярности у ИИ: тридцать шесть отрывков из рассматриваемых пятисот. Наименее частой темой в топе, занявшей последнее место, оказалась тема технологий.

Исходный размер 1189x590

Следующим шагом я сравнила темы, чаще всего появляющиеся в человеческих текстах. Был создан еще один топ-10 по аналогии с прошлым графиком. Для меня оказалось удивительным, что тема науки, у ИИ получившая первое место по популярности, появилась на 10 месте у человека. Наиболее распространенной темой оказалась тема финансов.

2. ГИСТОГРАММА

Затем меня заинтересовало значение количества символов: будут ли какие-то различия между ИИ и человеком в этом конкретном параметре.

Из опыта работы с искусственным интеллектом мне известно, что ответы нейросетей зачастую более развернутые, чем человеческие, но чаще генерируются типовым образом: подчиняются конкретной структуре и рамкам длины. Было очень любопытно проверить, насколько я окажусь права в своих суждениях.

Исходный размер 1360x1786

Была создана гистограмма, где на графике наглядно показан интересующий меня параметр. Горизонтально в порядке возрастания показано количество символов. Вертикально расположено, насколько часто то или иное количество появляется в датасете. В правом верхнем углу и пунктирной линией отмечено среднее значение.

Исходный размер 1389x490

Получился интересный разброс: в левой стороне графика, где был показан ИИ, практически точное количество слов появлялось наиболее часто, один из столбцов значительно доминирует над другими. У людей напротив: есть наиболее частый диапазон, но столбцы разрозненны. График справа напоминает не закономерность, а скорее наблюдение за совпадениями.

3. БОКСПЛОТ

Следующий параметр, количество отдельных слов в отрывке, интересен с точки зрения смысловой насыщенности текстов: так можно понять, лаконичен текст или многословен.

Исходный размер 1360x1524

Был создан график-боксплот, с помощью фигур показывающий разницу между текстами, созданными ИИ, и человеческими. Слева можно заметить, что средняя длина в словах у ИИ составляет пятнадцать с половиной слов, а у людей — немногим выше восемнадцати.

Исходный размер 989x589

Продолжая проверять свою теорию, сформированную опытом, я пришла к выводу: по гистограмме можно заметить, что искусственный интеллект чаще прибегает к использованию точного количества символов, но при этом развернутость оказалась под вопросом, ведь на блокспоте выше видно, что искусственный интеллект более лаконичен, чем человек.

4. СЛОЖЕННАЯ ГИСТОГРАММА

В датасете представлена оценка качества отрывков по пятибалльной шкале. В обществе я часто встречала мнение, что текст, написанный нейросетью, априори ниже качеством, чем текст, написанный человеком. Имея на руках точные значения качества, я решила проверить, так ли это на самом деле.

Исходный размер 1360x1226

Была создана сложенная гистограмма, где на графике показан интересующий меня параметр в одной и той же плоскости. Я приняла решение не делить график на две разные стороны для дополнительной наглядности.

Горизонтально в порядке возрастания показаны оценки качества. В датасете нет такого текста, который опустился бы ниже оценки 1.5, а поэтому линейка начинается именно с этого значения и заканчивается 5.0, высочайшей оценкой. Вертикально расположена частота, с которой та или иная оценка присуждается отрывку. В правом верхнем углу показано, каким цветом обозначается ИИ, а каким человек.

Исходный размер 989x590

На графике выше заметно, насколько текст человека растянулся по графику. Текст ИИ, тем временем, не так далеко уходит от своего среднего значения. Нечто подобное мы уже видели в гистограмме длины символов.

Средняя оценка качества ИИ оказалась выше средней оценки человека: 3.77 и 3.24 соответственно. Глядя на сложенную гистограмму, я пришла к выводу: нейросеть пишет наиболее точно и редко допускает ошибки, а общество разнообразно даже в качестве написанного текста. Тем не менее, результат текстов, написанных человеком, мне не кажется плохим: тогда как среднее арифметическое ИИ показывает, что некоторые модели менее мощны, чем другие, человеческий текст изменчив, потому что каждый из нас с течением жизни улучшает свои навыки, учится у других и становится примером для тех, чьи умения еще не так хороши.

5. ВИОЛОНЧЕЛЬНЫЙ ГРАФИК

В начале изучения датасета я была озадачена параметром настроения. Мне казалось, что выяснить тональность текста и привести ее к числовому значению — это сложная и едва ли возможная задача.

Разобравшись в вопросе, я поняла, что данный параметр определяется исходя из знаков препинания, контекстных конструкций, слов с эмоциональной окраской и делит настроение на негативное (ниже 0) и позитивное (выше 0). Тогда мне стало интересно, как отличаются в этом вопросе человек и нейросеть.

Был создан виолончельный график, чтобы визуально проследить различия в параметре настроения. Ради интереса также было добавлено точечное распределение параметра настроения, которое находится в правой части графика. Тогда я заметила, что некоторые точки достаточно сильно отходят от остальных. Чтобы не запутаться, было добавлено пояснение, как выглядят точки человека и точки нейросети.

Исходный размер 1389x490

Слева можно заметить, что виолончельный график нейросетевых настроений достаточно ровный: отчетливо сужается к концу и началу. Середина, в диапазоне от 0 до 0.6, наиболее широкая, что в очередной раз подтверждает, что ИИ чаще действует типовым способом. Тем не менее, нейросети в общении с людьми часто стараются поддержать и дать мягкую, положительную оценку. Это идет скорее от их настроек: компаниям важно, чтобы их модели были доброжелательны к пользователям. На графике это тоже видно! Усредненный текст нейросети обладает настроением 0.179, то есть слегка приподнятое от нейтральности, а негатива в текстах гораздо меньше — прослеживается легкое сужение к низу.

График, относящийся к человеческим текстам, напротив, достаточно резкий и отдаленно похож на песочные часы. Любопытно, что нейтральность в тексте человека практически так же популярна, как и значения ниже, примерно до -0.3. Отчетливое расширение графика есть в верхней части, начиная с 0.4 и в нижней, ближе к -0.4. Это говорит об эмоциональности: люди часто передают эмоции через текст и, являясь индивидом, а не продукцией какой-либо компании, могут ярко высказывать негативное или позитивное отношение.

ВЫВОД

В ходе анализа мне удалось изучить различные данные о текстах, написанных ИИ и человеком, что помогло понять, как сильно мы различаемся в том, как выражаем эмоции, как и о чем пишем. Графики, сделанные с помощью простых инструментов визуализации, позволили увидеть закономерности в данных, сделать выводы и рассказать о них самым наглядным способом.

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

С помощью нейросети Krea была создана обложка проекта.

Промт: Generate an image of a human hologram on a black background. ¾ angle The image should be minimalist. Sci-fi vibe. The image of a BRAIN should be outlined inside the human hologram. Sci-fi style, technology, simple black background. Use green and neon tones. Poor screen quality, lots of pixels, interference.

Варианты обложки, сгенерированные в ходе разработки проекта по тому же промту.

В своей работе я также использовала нейросеть DeepSeek. Так как ранее я ни разу не создавала графики с помощью кода, первое время мне было трудно разобраться. Нейросеть помогала мне с изучением предложенных курсом для работы библиотек, исправлять код, когда он не работал, и кастомизировать графики под мой запрос.

СПИСОК ИСТОЧНИКОВ

AI vs Human Comparison Dataset // Kaggle URL: https://www.kaggle.com/datasets/prince7489/ai-vs-human-comparison-dataset?resource=download (дата обращения: 18.12.2025).
«Матрица» («The Matrix», реж. Лоренс (Ларри) Вачовски и Эндрю (Энди) Пол Вачовски, 1999).

ССЫЛКА НА БЛОКНОТ И ДАТАСЕТ