Original size 800x1058

Анализ лексического разнообразия в произведениях Толстого и Чехова

11

Описание

post

Я очень люблю слова и буквы, а также работать и анализировать большое количество текста! Поэтому:

При выборе темы и подбора соответствующего датасета я руководствовалась собственным интересом к русской литературе, а также значимых для меня писателей Льва Николаевича Толстого и Антона Павловича Чехова, чьи произведения восхищали меня. Толстой и Чехов — современники и они жили и видели почти одно и то же, однако у них были идеологические разногласия (особенно по вопросам религии и искусства). Но так или иначе они влияли друг на друга, особенно в культурной среде конца XIX века. Мне стало интересно проанализировать лексическое разнообразие в их произведениях, то как различается их язык повествования и с чем это связано.

Для своего проекта (для более честного анализа) я решила взять по одному произведению Толстого и Чехова: Смерть Ивана Ильича и Палата № 6 соответсвенно. Эти произведения относятся к позднему творчеству авторов, сопоставимы по объему и представляют художественную прозу высокого стиля.

big
Original size 1820x1024

Сгенерировано при помощи recraft.ai.промпт: create writers old Tolstoy with a very long beard and young Chekhov in a hat and mustache with a beard and pince-nez wrestle in the ring with boxing gloves

Для поиска датасета с текстами произведений русских классиков я использовала ресурс kaggle.com. На нем я нашла интересующую меня сборку произведений русских авторов и выбрала нужные мне для анализа произведения.

Для более полного анализа я использованы следующие типы диаграмм:

1. Столбчатая диаграмма 2. Облака слов (wordcloud) 3. Plot-box (ящик с усами) 4. Гистограмма 5. Корреляционная матрица

Эти виды графиков помогут мне в моем проекте наглядно представить информацию и легко воспринимать данные, которые будут мной описаны.

Стиль

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create a rack of old books with writing on them: L.N.Tolstoy and A.P.Chekhov.

Для определения общего стиля я взяла историческую фотографию Чехова и Толстого (из файла с текстами с Kaggle), а затем преобразовала ее по стилю в recraft.ai.

Выбрала самое удачное генерированное изображение, которое, по моему мнению, отражает связь с классической русской литературой и книгами (оно передает творческий характер, а также философские и вечные темы, которые затрагивают авторы в своих произведениях). Затем из него создала палитру цветов с помощью Adobe Color.

Все последующие изображения были сгенерированы также в recraft.ai — я создала им общий стиль по первому изображению (платформа это позволяет), чтобы все изображения имели общую стилистическую основу.

Original size 3508x1919

Оригинальная фотография Чехова и Толстого// Преображенное изображение с помощью нейросети recraft.ai

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create Tolstoy with a big and long beard and Chekhov with a short and black beard and pince-nez are sitting at a table drinking tea

Я спросила у чата gpt подойдут ли цвета, предложенные Adobe Color для этой темы, и он выдал мне описания цветов, которые действительно подходят для темы моего анализа, подчеркивают интеллектуальную глубину, классическую атмосферу и серьёзность исследования:

#111111 (Чернильная тьма) — идеально для основного текста или акцентов; передаёт строгость и академичность анализа. #585753 (Серый абзац) — хороший цвет для второстепенных элементов: меток, подзаголовков, графиков. Сдержанный, не отвлекает. #767571 (Бумажная пыль) — для фона диаграмм или интерфейса; нейтральный, тёплый, вызывает ассоциации с книгами. #D2CBBB (Льняной лист) — отлично подойдёт для подложек, аннотаций, визуализаций. Он добавляет «академического уюта». #D0A549 (Янтарный абзац) — идеален для выделения ключевых моментов, цитат Толстого или Чехова. Придаёт образу теплоту и уважение к классике.

Original size 4077x929

Палитра, созданная по обложке с помощью Adobe Color

Графики

Прежде, чем начинать работу, необходимо было «очистить» полученные текстовые массивы от «стоп-слов» и имен собственных, которые мешают при работе с анализом произведений.

После открытия текстов и применения библиотек я убрала все стоп-слова и имена собственные из текстов. (См. блокнот внизу страницы)

(1) Столбчатая диаграмма

Для начала я решила узнать какие же слова чаще всего повторяются в произведениях Толстого и Чехова. Выделила топ-10 слов у каждого автора и визуализировала их в графике.

Original size 989x490
Original size 989x490

Можно заметить, что язык писателей довольно схож. Так как темы произведений сходятся, соответсвенно они используют более менее похожие по смыслу слова. Однако можно заметить и некоторые различия:

У Толстого: Только — наиболее частотное слово. Это может указывать на склонность Толстого к использованию ограничений, уточнений и акцентированию внимания на чём-то одном. Также в частые слова входят Жизнь, дело и смерти. Это подчеркивает его интерес к вопросам жизни, ее смыслу и может указывать на тематику моральных вопросов и жизненного пути.

У Чехова: Сказал — наиболее частотное слово. Это может отражать чеховский акцент на диалогах и речи персонажей, что характерно для его драматических произведений и рассказов. Слова люди, человек, день, лет намекают на то, что Чехов часто описывает людей, повседневную жизнь, и течение времени.

(2) Облако слов

На этом графике видно уже гораздо больше слов, используемых автором. Однако в центре мы все еще видим самые частые слова, которые и задают тон всему произведению.

В облаке слов у Толстого доминируют слова, связанные с темами судьбы, времени, боли, раздумий, семейных отношений.

А у Чехова — появляются слова, связанные с больницей, врачами, человеческими страданиями, мелкими деталями быта и психологией.

Если в облаке Толстого много абстрактных понятий, философских терминов (это отражает сложность и глубину текста), то в облаке Чехова чаще встречаются бытовые и конкретные слова, отражающие реализм и приземленность.

Original size 790x432
Original size 790x432

Стоит обратить внимание на конкретные ключевые слова — насколько они отражают темы произведений?

Например, у Толстого часто появляются смерть, жизнь, страх, судьба. У Чехова — больница, врач, палата, человек, ум.

Если слово смерть в Толстом встречается очень часто, а у Чехова — больница и пациенты — это отражает разницу тем и настроений.

(3) Plot-box

При выполнении этого графика (опять-таки для более точного результата я использовала не уже очищенные тексты, а их оригинальные версия со «стоп-словами» и именами собственными). По графику можно увидеть, что у Чехова гораздо больше выбросов, чем у Толстого.

Это обусловлено тем, что Чехов часто использует в текстах более разнообразные слова — как короткие междометия и частицы, так и редкие длинные слова. Это увеличивает разброс длины. В его произведениях встречаются короткие слова (например, «да», «ну», «эх») и при этом иногда редкие, сложные термины — поэтому вариативность длины слов растёт.

У Толстого же стиль повествования более философский, строгий и более концентрированный: меньше редких слов и коротких частиц. Слова более ровной длины — его текст более однородный по лексике. Меньше резких колебаний — менее экспрессивный в плане длины слов.

Original size 855x547

(4) Гистограмма

Также мне стало интересно подтвердить свои догадки про длину предложений каждого автора. (Толстой — большие и длинные предложения, Чехов — краток и лаконичен).

По графику можно увидеть: у Толстого встречаются значительно более длинные предложения. В правой части графика видно, что Толстой использует предложения длиной до 70 слов, в то время как у Чехова таких длинных предложений практически нет.

Original size 1189x590

Этот график полностью подтверждает известные стилистические особенности Толстого и Чехова:

Толстой склонен к более длинным, развернутым предложениям, в которых часто используются сложные конструкции, описания и детали. Чехов же предпочитает более лаконичный стиль, с короткими и ясными предложениями.

(5) Корреляционная матрица

В корреляционной матрице можно увидеть низкую корреляцию между частотами слов у Толстого и Чехова: Значение корреляции между частотами слов (исключая стоп-слова, так как они бы усилили корреляцию, а мне нужен более точный анализ) у Толстого и Чехова составляет 0.35. Это указывает на слабую положительную связь между использованием ими слов.

Соответсвенно, это говорит нам о том, что Толстой и Чехов имеют частично похожую лексику, но при этом достаточно отличаются — что отражает их индивидуальный стиль и темы произведений.

Original size 569x490

Выводы

После визуализации всех графиков я могу сделать несколько выводов:

1. Оба автора используют богатый и насыщенный словарь, но у Толстого наблюдается чуть большее разнообразие. 2. Средняя длина предложений у Толстого значительно выше, что отражает его склонность к философским размышлениям, детализации и психологическим описаниям. У Чехова предложения короче, что соответствует его стремлению к лаконичности, драматичности и сдержанной иронии. 3. У Чехова преобладают слова, связанные с медициной, бюрократией и внутренней изоляцией. У Толстого — это термины, связанные со смертью, душой, страданием и моральными переживаниями. 4. Без стоп-слов корреляция частот составила около 0.35, что говорит о различии авторских стилей и тематик, несмотря на общую принадлежность к классической русской прозе примерно одного периода. 5. Визуально можно заметить, что у Чехова ключевые слова более сосредоточены вокруг внешнего быта и социума, у Толстого — вокруг внутреннего мира и духовного кризиса.

Так, я выяснила, что произведения «Смерть Ивана Ильича» Толстого и «Палата № 6» Чехова, несмотря на общую тематику экзистенциального кризиса и болезненности бытия, различаются как по стилю, так и по лексике, формируя особый узнаваемый стиль каждого автора.

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create writers Tolstoy with a big beard and Chekhov with a languid beard sitting in a hospital ward in white straitjackets and reading book

P. S. Коды получились очень большими, поэтому я решила не вставлять их в лонгрид, чтобы визуально не нагромождать и сохранить лаконичность темы. В блокноте все подробно расписала с пояснениями :)

Описание применения генеративной модели

Использованные нейросети:

(1) Chat GPT — генерация описаний цветов, помощь в непонятных частях кода и помощь при устранении ошибок (2) DeepL — перевод предложений для промптов (3) recraft.ai — генерация картинок (4) Adobe Color — генерация цветовой палитры

Original size 1820x1024

Сгенерировано при помощи recraft.ai. промпт: create a large and spacious but empty ward with no people in it, it’s very aloof and strict

Анализ лексического разнообразия в произведениях Толстого и Чехова
11
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more