КОНЦЕПЦИЯ
Искусственный интеллект в последние годы всё больше и больше проникает в человеческий быт, хобби и работу. Его стремительное развитие затронуло и меня: я уже около года серьезно изучаю генеративный искусственный интеллект в качестве хобби. Особенный интерес для меня представляют модели, способные работать с текстом и, в особенности, его самостоятельно создавать.
При выборе темы и подбора соответствующего датасета я руководствовалась собственным интересом к данной тематике и достаточно обширным опытом: за время своего увлечения мне удалось пообщаться и попробовать в деле достаточно большое количество моделей.
Для поиска датасета, изучающего текст нейросетей, я использовала ресурс Кaggle. На нем я нашла интересующий меня файл: сравнения текста, созданного ИИ и текста человека. На странице датасета указано:
«Он (датасет) разработан, чтобы помочь исследователям, специалистам по обработке данных и энтузиастам машинного обучения изучить, чем текст, написанный ИИ, отличается от текста, написанного человеком, с точки зрения структуры, эмоционального содержания, стиля и лингвистической сложности.»
Мне хотелось бы визуально продемонстрировать эти различия с помощью диаграмм. Для более полного анализа я использованы следующие типы:
- СТОЛБЧАТАЯ ДИАГРАММА;
- ГИСТОГРАММА;
- БОКСПЛОТ;
- СЛОЖЕННАЯ ГИСТОГРАММА;
- ВИОЛОНЧЕЛЬНЫЙ ГРАФИК.
Эти виды графиков помогут мне наглядно представить информацию, а читателю, в свою очередь, так будет легче воспринимать данные, которые будут мной описаны.
ОБРАБОТКА ДАННЫХ И ВИЗУАЛЬНЫЙ СТИЛЬ
В самом начале работы я загрузила все необходимые библиотеки и датасет в формате CSV с помощью Pandas.
ПАЛИТРА
Также я подобрала цветовую палитру в зеленых оттенках.
Зеленый цвет ассоциируется у меня с фильмом «Матрица», где искусственный интеллект был сюжетно противопоставлен человеку. Тем не менее, я сознательно сделала оттенки мягче, чтобы добавить в лонгрид больше природных мотивов, как раз-таки отделяя его от упомянутого фильма: я считаю, в конечном итоге наш мир придет к симбиозу ИИ и человеческого разума. Людской вклад здесь и отмечен приглушением тонов.
Благодаря внутренним возможностям Google Colab мне удалось применить зеленую цветовую палитру к графикам и диаграммам, которые подкрепляют исследуемые данные визуализацией.
Помимо этого, в проекте была задействована платформа Carbon Now, которая помогла мне изменить цветовую палитру кода.
Чтобы подобранная палитра отобразилась на графиках, после добавления библиотеки Pandas я добавила несколько строк, которые меняли оригинальные цвета Google Colab на те, которые были необходимы мне:
Идея с природными оттенками пришла ко мне не сразу. Прежде чем она появилась, был создан код и наименования цветов. Чтобы уделить больше времени визуализации, было принято решение не исправлять названия в уже готовом тексте, а изменить только HEX-коды оттенков. Получилась своеобразная отсылка на прошлую вариацию совсем уж «матричных» цветов проекта.
1. СТОЛБЧАТАЯ ДИАГРАММА
Найденный мной датасет оценивает текста людей и генеративного искусственного интеллекта по различным параметрам: указывается длина в словах, в символах, оценивается качество и настроение.
Помимо этих параметров, рядом с каждым из текстов, собранных в датасете, указывается тематика. Мне стало любопытно сравнить, какие темы наиболее популярны у человека и у ИИ. Для удобства названия параметров написаны в оригинале. Например HUMAN для человеческих текстов и AI для тех, что были написаны искусственным интеллектом.
Первым делом я сравнила темы, чаще всего появляющиеся в нейросетевых текстах. Так получился топ-10 наиболее частых, где можно заметить, что в датасете тематика науки занимает первое место по популярности у ИИ: тридцать шесть отрывков из рассматриваемых пятисот. Наименее частой темой в топе, занявшей последнее место, оказалась тема технологий.
Следующим шагом я сравнила темы, чаще всего появляющиеся в человеческих текстах. Был создан еще один топ-10 по аналогии с прошлым графиком. Для меня оказалось удивительным, что тема науки, у ИИ получившая первое место по популярности, появилась на 10 месте у человека. Наиболее распространенной темой оказалась тема финансов.
2. ГИСТОГРАММА
Затем меня заинтересовало значение количества символов: будут ли какие-то различия между ИИ и человеком в этом конкретном параметре.
Из опыта работы с искусственным интеллектом мне известно, что ответы нейросетей зачастую более развернутые, чем человеческие, но чаще генерируются типовым образом: подчиняются конкретной структуре и рамкам длины. Было очень любопытно проверить, насколько я окажусь права в своих суждениях.
Была создана гистограмма, где на графике наглядно показан интересующий меня параметр. Горизонтально в порядке возрастания показано количество символов. Вертикально расположено, насколько часто то или иное количество появляется в датасете. В правом верхнем углу и пунктирной линией отмечено среднее значение.
Получился интересный разброс: в левой стороне графика, где был показан ИИ, практически точное количество слов появлялось наиболее часто, один из столбцов значительно доминирует над другими. У людей напротив: есть наиболее частый диапазон, но столбцы разрозненны. График справа напоминает не закономерность, а скорее наблюдение за совпадениями.
3. БОКСПЛОТ
Следующий параметр, количество отдельных слов в отрывке, интересен с точки зрения смысловой насыщенности текстов: так можно понять, лаконичен текст или многословен.
Был создан график-боксплот, с помощью фигур показывающий разницу между текстами, созданными ИИ, и человеческими. Слева можно заметить, что средняя длина в словах у ИИ составляет пятнадцать с половиной слов, а у людей — немногим выше восемнадцати.
Продолжая проверять свою теорию, сформированную опытом, я пришла к выводу: по гистограмме можно заметить, что искусственный интеллект чаще прибегает к использованию точного количества символов, но при этом развернутость оказалась под вопросом, ведь на блокспоте выше видно, что искусственный интеллект более лаконичен, чем человек.
4. СЛОЖЕННАЯ ГИСТОГРАММА
В датасете представлена оценка качества отрывков по пятибалльной шкале. В обществе я часто встречала мнение, что текст, написанный нейросетью, априори ниже качеством, чем текст, написанный человеком. Имея на руках точные значения качества, я решила проверить, так ли это на самом деле.
Была создана сложенная гистограмма, где на графике показан интересующий меня параметр в одной и той же плоскости. Я приняла решение не делить график на две разные стороны для дополнительной наглядности.
Горизонтально в порядке возрастания показаны оценки качества. В датасете нет такого текста, который опустился бы ниже оценки 1.5, а поэтому линейка начинается именно с этого значения и заканчивается 5.0, высочайшей оценкой. Вертикально расположена частота, с которой та или иная оценка присуждается отрывку. В правом верхнем углу показано, каким цветом обозначается ИИ, а каким человек.
На графике выше заметно, насколько текст человека растянулся по графику. Текст ИИ, тем временем, не так далеко уходит от своего среднего значения. Нечто подобное мы уже видели в гистограмме длины символов.
Средняя оценка качества ИИ оказалась выше средней оценки человека: 3.77 и 3.24 соответственно. Глядя на сложенную гистограмму, я пришла к выводу: нейросеть пишет наиболее точно и редко допускает ошибки, а общество разнообразно даже в качестве написанного текста. Тем не менее, результат текстов, написанных человеком, мне не кажется плохим: тогда как среднее арифметическое ИИ показывает, что некоторые модели менее мощны, чем другие, человеческий текст изменчив, потому что каждый из нас с течением жизни улучшает свои навыки, учится у других и становится примером для тех, чьи умения еще не так хороши.
5. ВИОЛОНЧЕЛЬНЫЙ ГРАФИК
В начале изучения датасета я была озадачена параметром настроения. Мне казалось, что выяснить тональность текста и привести ее к числовому значению — это сложная и едва ли возможная задача.
Разобравшись в вопросе, я поняла, что данный параметр определяется исходя из знаков препинания, контекстных конструкций, слов с эмоциональной окраской и делит настроение на негативное (ниже 0) и позитивное (выше 0). Тогда мне стало интересно, как отличаются в этом вопросе человек и нейросеть.
Был создан виолончельный график, чтобы визуально проследить различия в параметре настроения. Ради интереса также было добавлено точечное распределение параметра настроения, которое находится в правой части графика. Тогда я заметила, что некоторые точки достаточно сильно отходят от остальных. Чтобы не запутаться, было добавлено пояснение, как выглядят точки человека и точки нейросети.
Слева можно заметить, что виолончельный график нейросетевых настроений достаточно ровный: отчетливо сужается к концу и началу. Середина, в диапазоне от 0 до 0.6, наиболее широкая, что в очередной раз подтверждает, что ИИ чаще действует типовым способом. Тем не менее, нейросети в общении с людьми часто стараются поддержать и дать мягкую, положительную оценку. Это идет скорее от их настроек: компаниям важно, чтобы их модели были доброжелательны к пользователям. На графике это тоже видно! Усредненный текст нейросети обладает настроением 0.179, то есть слегка приподнятое от нейтральности, а негатива в текстах гораздо меньше — прослеживается легкое сужение к низу.
График, относящийся к человеческим текстам, напротив, достаточно резкий и отдаленно похож на песочные часы. Любопытно, что нейтральность в тексте человека практически так же популярна, как и значения ниже, примерно до -0.3. Отчетливое расширение графика есть в верхней части, начиная с 0.4 и в нижней, ближе к -0.4. Это говорит об эмоциональности: люди часто передают эмоции через текст и, являясь индивидом, а не продукцией какой-либо компании, могут ярко высказывать негативное или позитивное отношение.
ВЫВОД
В ходе анализа мне удалось изучить различные данные о текстах, написанных ИИ и человеком, что помогло понять, как сильно мы различаемся в том, как выражаем эмоции, как и о чем пишем. Графики, сделанные с помощью простых инструментов визуализации, позволили увидеть закономерности в данных, сделать выводы и рассказать о них самым наглядным способом.
ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ
С помощью нейросети Krea была создана обложка проекта.
Промт: Generate an image of a human hologram on a black background. ¾ angle The image should be minimalist. Sci-fi vibe. The image of a BRAIN should be outlined inside the human hologram. Sci-fi style, technology, simple black background. Use green and neon tones. Poor screen quality, lots of pixels, interference.
Варианты обложки, сгенерированные в ходе разработки проекта по тому же промту.
В своей работе я также использовала нейросеть DeepSeek. Так как ранее я ни разу не создавала графики с помощью кода, первое время мне было трудно разобраться. Нейросеть помогала мне с изучением предложенных курсом для работы библиотек, исправлять код, когда он не работал, и кастомизировать графики под мой запрос.
СПИСОК ИСТОЧНИКОВ
- AI vs Human Comparison Dataset // Kaggle URL: https://www.kaggle.com/datasets/prince7489/ai-vs-human-comparison-dataset?resource=download (дата обращения: 18.12.2025).
- «Матрица» («The Matrix», реж. Лоренс (Ларри) Вачовски и Эндрю (Энди) Пол Вачовски, 1999).




