Роману «Война и мир», занимающему в художественном наследии Л.Н. Толстого центральное место, посвящено бесчисленное множество статей и монографий, в которых это произведение подробно рассмотрено в самых разных аспектах.
В данной работе изложены результаты определения основных статистических характеристик текста этого произведения. В табл. 1 приведены общие данные о файле (формат WORD 2000) с текстом романа.
Результаты подсчета числа русских, французских и немецких слов, которые содержаться в романе, за вычетом слов сносок, приведены в табл. 2.
Выделив в отдельный файл только русский текст, подсчитывали частоту, с которой встречаются в тексте слова той или иной длины. Результаты в виде полигона частот распределения длины слов показаны на рис. 1. Обращает на себя внимание большая доля слов, имеющих длину 6 и менее букв. Таких слов в тексте романа почти 70 процентов.
Характерной особенностью полигона является относительный минимум при длине слова 4 буквенных знака. Слова, состоящие из 14 и более букв встречаются в тексте очень редко. Самое длинное слова состоит из 24 букв. Это специфический термин – обращение той эпохи: «высокопревосходительство».
Война и мир | Краткий пересказ
Рис. 1 Полигон распределения длины слов
Анализ, подобный изложенному, для французских и немецких слов не проводился, так как они составляют незначительную часть текста романа (менее 3 процентов).
На рис. 2 показан полигон распределения длины предложений по числу входящих в них букв, а на рис. 3 – по числу входящих в предложения слов.
Рис. 2 График распределения длин предложений (букв)
Рис. 3 График распределения длины предложений (слов)
При подсчетах числа предложений той или иной длины ни французские, ни немецкие слова не исключались, в тех случаях когда они входят в состав предложений, состоящих преимущественно из русских слов.
Общее число предложений в романе составляет 31566, включая предложения целиком состоящие из французских или немецких слов.
Результаты статистической обработки выборок слов и предложений приведены в табл. 3, в которой приняты следующие обозначения: x ср – среднее значение, D – дисперсия, E – эксцесс, A – асимметрия.
Источник: tverlingua.ru
Князь сказал или где была война. Мой опыт исследования «Войны и мир»
Роман-эпопею Льва Николаевича Толстого «Война и мир» я так и не прочитал до сих — в школе было не интересно из-за «словоблудия» автора, а с возрастом как-то нет времени взяться за такой объемный труд.
Однако решил, что изучить стоит…
Подготовка
Я не вычищал от сторонних слов и знаков (латинских номер частей, номеров сносок и части комментариев), что на фоне почти 400 тысяч слов текста романа, погрешность даже в тысячу слов не даст неверных данных, но я решил минимальную подготовку текста все-таки совершить.
О чем на самом деле роман «Война и мир»?
Часть программы подготовки файла
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np
#filename = input(«Введите путь к файлу: „)
filename = # полный путь к файлу
file = open(filename, ‘r’)
text = file.read()
text = text.replace(“n», » «)
text =text.replace(‘]’,»).replace(‘[‘,»).replace(‘»‘,»).replace(«,», «»).replace(«.», «»).replace(«?», «»).replace(«!», «»).replace(«)», «»).replace(«(«, «»)
text =text.lower()
words_untill = text.split() # отдельно сохранил роман по словам до всех изменений
Как человеку, работающему постоянно с числами, мне стали интересны следующие вопросы:
1. Самое длинное слово в романе
Узнав от жены, что Лев Николаевич еще тот графоман, решил узнать, каких длинных слов выдумал для романа Толстой.
Итак, ТОП-3 длинных слов.
Первое место (27 букв и дефис) поделили слова сверхъестественно-прекрасное, сверхъестественно-утонченное и непреодолимо-обворожительным:
… Как хороший метрдотель подает как нечто сверхъестественно-прекрасное тот кусок говядины, который есть не захочется, если увидать его в грязной кухне, так в нынешний вечер Анна Павловна сервировала своим гостям сначала виконта, потом аббата, как что-то сверхъестественно-утонченное…
… Француз бывает самоуверен потому, что он почитает себя лично, как умом, так и телом, непреодолимо-обворожительным как для мужчин, так и для женщин. Англичанин самоуверен на том основании, что он есть гражданин благоустроеннейшего в мире государства, и потому, как англичанин, знает всегда, что ему делать нужно, и знает, что все, что он делает как англичанин, несомненно хорошо. Итальянец самоуверен потому, что он взволнован и забывает легко и себя и других.
Второе место (25 букв и дефис) заняло слово однообразно-разнообразными:
… Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон со своими однообразно-разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался…
Третье место (24 буквы) заняло слово высокопревосходительство, данное слово в отличие от предыдущих встречается восемь раз, как обращение к фельдмаршалу Михаилу Илларионовичу Кутузову.
Часть программы по поиску самого длинного слова
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np
…
words = text.split() #сделал копию романа, из которой в дальнейшем буду вырезать все не нужное, для сокращения циклов
words = sorted(words, key = len, reverse=True) #отсортированный по длине слов
…
for i in range(3): #отсортированный по длине слов
print(words[i].ljust(30), len(words[i])) #вывод топ-3 самых длинных слов с указанием их длины
…
2. Самое часто употребляемое слово
Предварительно список был очищен от слов из одной и двух букв, чтобы из циклов сравнений убрать предлоги и короткие местоимения. После первой итерации оказалось, что в ТОП-10 не попадает ни одного существительного из трех букв (меч, зло, тыл и т.п.), и я последовательно подчистил список от трехбуквенных слов, и даже, после дальнейших опытов, — от четырехбуквенных слов.
Часть программы по очистке от коротких слов
…
words2 =[]#список cлов, длиннее четырех букв
for i in range(len(words)):#запись всех слов длиннее четырех букв в новый список
if len(words[i])>4:
words2.append(words[i])
else: break #до этого у нас словарь был отсортирован по длине, поэтому, как только четырехбуквенные слова закончатся, дальше нет смысла циклу работать
…
В списке наиболее часто употребляемых слов оказалось не так уж и много существительных, поэтому пришлось из списка слов романа для дальнейшей оценки убрать слова «только», «когда»,
«чтобы», «теперь», «этого», «которые», «который», «потому», «опять», «вдруг», «очень», «ничего», «своей».
Часть программы по поиску самых популярных слов
…
words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):#вывод топ-10 самых популярных слов
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)
…
В итоге ТОП-10 популярных слов:
1. сказал — 1411
2. князь — 952
3. время — 544
4. Андрей — 500
5. говорил — 464
6. княжна — 435
7. сказала — 424
8. человек — 391
9. Наташа — 376
10. людей — 372
Так как поиск велся без учета форм слов, для «князь» пришлось отыскать все формы слова. После уточнения данных КНЯЗЬ занял первое место в ТОПе с 1435 упоминаниями в романе, против глагола СКАЗАЛ.
Поиск всех форм слова КНЯЗЬ
…
n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «княз» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(«Формы слова КНЯЗЬ — » + str(len(form_n4)))
…
Как видно из списка глаголы СКАЗАЛ(1411) и ГОВОРИЛ(464) в романе встречаются чаще, чем глаголы СКАЗАЛА(424), что говорит о том, что в романе мужчины в 4,5 раза говорят больше, чем женщины (тут слышны обвинения в сексизме в адрес Льва Николаевича), да и КНЯЖНА (435) появляется намного реже КНЯЗЯ.
Так же стало интересно, какое отношение у общества было к Наталье Ильиничне Ростовой aka Наташа Ростова. На протяжении романа она так и осталась Наташей, несмотря на то, что к концу романа Наталья Ростова стала женой Пьера Безухова. Во всех формах Наташа встречается в тексте 591 раз, при этом формы имени Наталья и Натали встречаются всего 9 раз.
3. Где в романе была война?
Не смотря на название, «война» в романе встречается во всех формах только 278 раз.
Поиск всех форм слова ВОЙНА
…
n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «войн» in words_untill[i] and «конвойн» not in words_untill[i]:# слова типа «конвойный» надо исключить из списка
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(«Формы слова ВОЙНА — » + str(len(form_n3)))
…
Я разбил весь роман на участки по 10 тыс. слов и решил проследить упоминания слов «князь», «Наташа» и «война» по ходу романа.
Разбиение романа по 10 тыс. слов
…
как вы ранее могли заметить все упоминания слов записаны как двоичные векторы по длине романа: «0» — не совпадают слова, «1» — совпадают.
…
m1=[]
m2=[]
m3 =[]
m4 = []
while i m1.append(sum(n1[i: i+10000]))# «сказал»
m2.append(sum(n4[i: i+10000]))# с учетом форм слова «князь»
m3.append(sum(n3[i: i+10000]))# с учетом форм слова «война»
m4.append(sum(nata1[i: i+10000]))# с учетом форм слова «Наташа»
i=i+10000
…
По гистограмме видно, что про князей после всплеска описания войны к концу романа говорят меньше, а все больше вспоминают про Наташу.
Хорошо видна обратная корреляция в распределении зависимости упоминания слов «война» и «Наташа» — чем меньше войны, тем больше Наташи.
Также четко просматривается обратная корреляция в распределении зависимости упоминания слов «князь» и «Наташа».
В распределении зависимости упоминания слов «князь» и «война» не просматривается четкой корреляции, хотя видно, что когда про войну мало говорят, то и про князей не вспоминают, однако это не объясняет большое число упоминаний «князей» в отсутствие «войны».
Необходимо отследить корреляцию по ходу развития повествования.
Как видно из графика, высокая корреляция присутствует только в середине романа, когда в романе идет война, в иных местах романа корреляция низкая, на основании чего можно сделать вывод, что употребление «князя» и «войны» не имеет постоянной корреляции по ходу романа.
Выводы
- Классику надо читать.
- Если вы хотите прочитать про войну, а не про любовь, то читайте первую часть первого тома и третий том.
- Если вы хотите прочитать про то, как жили князья в мирное время, то подойдет прекрасно второй том.
- Если вам интересна любовь в отсутствие войны, то стоит почитать четвертый том.
- литература
- python для начинающих
- анализ данных
- война и мир
- математическая статистика
Источник: habr.com
Пять самых длинных в истории романов
Знаете анекдот о том, как Дарья Донцова пыталась расписать ручку, а в результате получилась новая книга в трех томах? Похоже, есть писатели, которые создают свои произведения примерно по такому принципу. По крайней мере, длина их романов превышает все мыслимые границы.
Приведем здесь пятерку самых длинных книг в истории человечества. Если вы ожидаете найти здесь почтенные фолианты из школьной программы, вроде «Войны и мира» или «Тихого Дона», то вы явно настроились не на ту величину. Книги, о которых сейчас пойдет речь, длиннее. Гораздо длиннее!
Фото с сайта https://s1.1zoom.ru
Для начала сделаем небольшую ремарку, чтобы определиться с критерием. Считать величину книги по количеству ее томов бессмысленно, так как толщина этих томов — величина очень непостоянная. Количество страниц — более стабильный критерий, поскольку большинство книг сейчас издается в примерно одинаковом формате. Но варьируемость размеров шрифта, величины межстрочных интервалов и ширины полей вносит слишком большой хаос и в такую классификацию.
Единственным бесспорным критерием следует признать количество слов. Вот по этому-то показателю мы и составим список. Самое короткое произведение в нем будет иметь миллион слов. Для сравнения — в эпопее Льва Толстого всего 188 088 слов.
5 место. «Моя борьба». Карл Уве Кнаусгор. 1 000 000 слов
Название одиозное, но это не та книга, о которой вы подумали, прочитав его. Просто современный норвежский писатель решил именно так назвать свою шеститомную автобиографию. Его произведение насчитывает порядка миллиона слов (с известной долей округления).
4 место. «Сон Цеттеля». Арно Шмидт. 1 100 000 слов
А эта книга вышла из под пера переводчика. Арно Шмидт известен как видный переводчик на немецкий язык произведений Эдгара Аллана По. Однажды ему пришло в голову написать роман о том, с какими проблемами сталкивается немецкий переводчик, берясь за этого американского классика. Получилось очень подробно и очень длинно.
3 место. «Миссия «Земля». Рон Хаббард. 1 200 000 слов
Перед нами произведение основателя новой религии — сайентологии. В Библии, по подсчетам исследователей, порядка 773 тысяч слов, но ее писали многие авторы на протяжении веков. Хаббард справился в одиночку, написав роман, чуть не вдвое длиннее. Хотя к религии конкретно это его произведение никакого отношения не имеет.
2 место. «В поисках утраченного времени». Марсель Пруст. 1 267 069 слов
Единственное в этом списке произведение, которое на слуху у большинства читающей публики. При этом мало кто может похвастаться, что одолел этот цикл романов целиком. Хотя заглядывали в него или даже осилили один из томов многие. Кстати, именно творение Пруста занесено в «Книгу рекордов Гиннеса» как самый длинный в истории роман. Но это ошибка.
Ведь есть еще.
1 место. Артамен, или Великий Кир. Жорж де Скюдери (Мадлен де Скюдери). 2 100 000 слов
Поясним, почему здесь указаны два автора. Дело в том, что издавался этот роман под именем Жоржа де Скюдери. Но исследователи полагают, что в реальности его написала Мадлен — родная сестра Жоржа. Дело в том, что книга увидела свет еще в XVII веке, а тогда проще было издать ее под мужским именем.
На этом мы закончим рассказ, чтобы не превращать этот пост в самый длинный в истории «Дзена».
Расскажите нам, а какую самую длинную книгу читали вы?
Рубрика # подборки книг от литинтереса
Ваши лайки и подписка на канал помогут выходу новых статей!
Источник: dzen.ru