Опыт статистической обработки текстов А. С. Пушкина |
since July 21 2001 (since Dec.24 1999, Japanese ed.) |
|
|
Данная страница — опыт статистики слов в художественных произведениях А. С. Пушкина. Можно просмотреть статистические таблицы отсюда. Мне хотелось бы, чтобы исследователи, при использовании в своих работах предлагаемых статистических таблиц, признавали следующие условия: Обработка статистики механически выведена вычислительной машиной. Электронные тексты основаны на CD-ROM Полного собрания сочинений А. С. Пушкина, опубликованном фирмой F-BIT. Электронное издание, в свою очередь, публикуется на основе знаменитого Полного собрания сочинений Пушкина, изданного Академией Наук СССР. Предлагаемые материалы ни в коей мере не претендуют на полноту и совершенство, и автор, а также фирма F-BIT, не несут никакой ответственности за любые результаты, полученные при использовании данных материалов. Это следует признать до начала работы. |
возвращение к началу |
|
Круг произведений Пушкина, подвергнутых обработке Круг произведений А. С. Пушкина выбранных для статической обработки включает следующие жанры:
- Стихотворения Таким образом, дневники, критическая проза и т. п. исключаются, хотя, как мне кажется, их анализ мог бы иметь определенное значение для сравнения с художественными произведениями великого поэта, и в дальнейшем эти жанры будут также включены в наше исследование. Статистической обработке подвергнуты следующие элементы структуры документа:
- названия произведений В исследование не входят переводы французских текстов Пушкина, сделанные редактором собрания сочинений. |
возвращение к началу |
|
В издании CD-ROM пушкинские тексты для удобства чтения написаны при помощи HTML. Однако для подсчета количества слов, это служит серьезным препятствием. Поэтому первым делом было необходимо устранить коды — такие как HTML-тэги, комментарии, и т. д. Таким образом, в данной работе из текстов были изъяты следующие фрагменты, как мне кажется, не существенные для анализа пушкинских произведений:
В издании CD-ROM сушествуют явные опечатки. Много ошибочных вводов русских символов похожих на латинские шрифты: "a", "e", "o", и т. д. Я заменял их насколько это возможно, отыскивая их на текстовом редакторе. Я проверял символы: A a, B, E e, K, M, H, O o, P p, C c, T, y, X x, 3 Однако в тех случаях, когда латинский символ с акцентом использован вместо русского чтобы ясно указать на акцент, я не делал исправлений. Так например, остается "атàнде": ат(cyrillic)-à(latin1)-нде(cyrillic) |
возвращение к началу |
|
Статистическая обработка сделана при помощи Staslova, программного обеспечения написанного мной, которое разделяет слова по определению оператора и составляет таблицы с подсчетами. В данной пушкинской статистике Staslova работает по следующей инструкции:
При анализе разделения слов признаются три типа разделительных символов:
О Staslova см.:
http://yasuda.homeip.net/slavonic/rus.html#sta
http://yasuda.homeip.net/arc/staslova-1.1.tar.gz (скачивать) Статистическая таблица упорядочена по литературным жанрам. |
возвращение к началу |
|
Процедура компьютерной обработки Процесс составления статистических таблиц объясняется ниже. Он основан на UNIX-платформе. Например, "%" — знак приглашения на ввод команды в TCSH.
|
возвращение к началу |
|
Следующими компьютерными средствами я пользовался для работы над статистикой. Все программное обеспечение бесплатное. |
элементы | средства |
система | AMD K6-2 300MHz PC |
емкость памяти | SD-RAM 256MB |
операционная система | FreeBSD 3.2-RELEASE |
текстовый редактор | Mule 2.3 (SUETSUMUHANA) + ETL шрифты |
неинтерактивный текстовый редактор |
awk : GNU Awk 3.0.3 |
sed : утилита во FreeBSD 3.2 | |
join : утилита во FreeBSD 3.2 | |
sort : утилита во FreeBSD 3.2 | |
утилита замены кодировки | coco V2.2 (программа в пакете Mule) |
transce8 V1.13 | |
возвращение к началу | |
|
Просматривать статистические таблицы
|
возвращение к началу |
|
Завершая этот труд в 1999 г. — в год двухсотлетия со дня рождения Пушкина, я напряженно работал в течении двух праздничных отпусков. Однако я подозреваю, что данные материалы нуждаются в более детальной проверке, для того чтобы ими можно было по-настоящему пользоваться в пушкиноведении. Замечания и предложения принимаются по электронной почте. Несмотря на занятость основной профессией, я отвечаю насколько это возможно. |
возвращение к началу |
|