Информации компьютера для славяноведов и филологов

Информации компьютера для славяноведов и филологов
since Mar. 7 1998

Побежденная трудность всегда приносит нам удовольствие.

— Пушкин

Предисловие
Конкорданс к тексту А. С. Пушкина
OldSlav для набора церковнославянского языка
citare.sty LaTeX макро пакет для цитирования в статьях славянских филологических наук
Emacs Leim input methods для славянских языков вообще и древнегреческого языка
Utf82TeX: утилиты для конверсии кодировки UTF-8 текстов на знаки LaTeX'а
Опыт статистической обработки текстов А. С. Пушкина
Опыт динамического составления конкордации к переданному тексту
Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка
Uso2022: программа для конверсии и транскрипции Compound Text
Staslova: программа для статистики и проверки форм слов
Японский вариант мульти-лингвистического пакета «Babel» и т. д. (для pLaTeX2e)
Скачивать архивы

Эта страничка опубликована для услуги исследователей славяноведения и филологии вообще. Я приготовил материалы совсем индивидуально, "voluntarily": Компания, где я работаю, никак не связана с предлагаемой страничкой.

Замечания и предложения принимаются по электронной почте.

вернуться к началу

Конкорданс к тексту А. С. Пушкина (2012)

Конкорданс к тексту А. С. Пушкина (КТП) — опыт конпьютерного динамического составления конкорданса к полному собранию сочинений А. С. Пушкина для пушкинистов и филологических исследователей.

КТП поддерживает:

Лемматизированный KWIC (Key Word in Concordance).

Регулярные выражения для словесного условия KWIC.

Вычисление на дистанции между 2 словами. Напр., выражение пестр.*<W3>приня.* дает KWIC слова пестр.* (пестрый, пестреть, пестрота, и др.) отдаленного от слова приня.* на 3 словах. (см. Фиг.1-1)

Опции выбора жанров (см. Фиг.1-2).

Русскую псевдо-клавиатуру (см. Фиг.1-3).

Позиционное указание со ссылкой к данному фрагменту KWIC (см. Фиг.1-4).

Подробнее см. tab «Описание» Конкорданс к тексту А. С. Пушкина

Фиг.1-1: KWIC

Фиг.1-2: Опции

Фиг.1-3: Русская псевдо-клавиатура

Фиг.1-4: Позиционное указание с ссылкой

вернуться к началу

OldSlav для набора церковнославянского языка (2006)

OldSlav --- дополнительный пакет LaTeX'а к церковнославянскому пакету SlavTeX'у, сделанному А. Слепухиным. OldSlav имеет функции:
- Babel language definition file (LDF).
- дополнительные control sequences для японкской системы pTeX.
- Комманда для нумерации церковнославянского стиля.
- Церковнославянский стиль для датировки.
- Разные методы для ввода (UTF-8, Control Sequense, Cyrillic transliteration, Windows CP1251, ISO 8859-5, KOI8-R, PC-DOS CP866).

см.:
- образец набора OldSlav
- документ OldSlav (англ. текст)

ср. пример LaTeX-документа: oldslavex.tex и его вывод (Фиг.2).

% -*- coding: utf-8; mode: latex; -*-
% OldSlav sample
\documentclass[a4paper]{article}
\usepackage[X2,T2D,T2A,T1]{fontenc}
\usepackage[utf8x]{inputenc}
\usepackage[russian,polutonikogreek,oldchurchslavonic,english]{babel}
\languageattribute{oldchurchslavonic}{utf8}
\def\oldslav{\selectlanguage{oldchurchslavonic}}%
\makeatletter
\def\ocsmonth{\slavdateon\ocs@month}%
\makeatother
\pagestyle{empty}
\DeclareFontFamily{LST}{cmr}{}%
\DeclareFontShape{LST}{cmr}{m}{n}{<-> s * [1.12] fslavrm}{}%
\begin{document}
\hfil{\Large\bf OldSlav Sample}\hfil
\parindent=0pt\relax
  
\section{UTF-8 input}
  
\bgroup
\selectlanguage{oldchurchslavonic}%
Х|срт'осъ воск_рсе ^из\ъ м'ертвыхъ, см'ертiю см'ерть попр'авь.
  
<Из\ъ глубин`ы воззв'ахъ къ теб`ѣ, г|сди:
г|сди, <ѹсл'ыши гл'асъ м'ой.
\egroup
 
\section{numeric style}
 
\verb|\slnum(1000)| $\to$ {\oldslav\slnum(1000)}\qquad
\verb|\slnum(12)| $\to$ {\oldslav\slnum(12)}\qquad
\verb|\slnum(666)| $\to$ {\oldslav\slnum(666)}
 
\section{date style}
\verb|\today| $\to$ {\oldslav\slavdateon\today}
  
\vspace{1em}
{\parindent=3em%
  \selectlanguage{oldchurchslavonic}
  \textlatin{1:} \today\par
  \slavdateon
  \textlatin{2:} \today\par
  \slavdateoff
  \textlatin{3:} \today\par
  \selectlanguage{english}
  4: \today\par
  5: \slavtoday\par
  \slavdateon
  6: \slavtoday\par
  \selectlanguage{english}
  7: \today\par
}%
 
\section{month names}
\begin{table}[h]
 \caption{month names of OldSlav}
\begin{center}
\begin{tabular}{ll|ll|ll|ll}
 Jan.  & {\oldslav\def\month{1}\ocsmonth} &
 Feb.  & {\oldslav\def\month{2}\ocsmonth} &
 Mar.  & {\oldslav\def\month{3}\ocsmonth} &
 Apr.  & {\oldslav\def\month{4}\ocsmonth} \\
 May   & {\oldslav\def\month{5}\ocsmonth} &
 June  & {\oldslav\def\month{6}\ocsmonth} &
 July  & {\oldslav\def\month{7}\ocsmonth} &
 Aug.  & {\oldslav\def\month{8}\ocsmonth} \\
 Sept. & {\oldslav\def\month{9}\ocsmonth} &
 Oct.  & {\oldslav\def\month{10}\ocsmonth} &
 Nov.  & {\oldslav\def\month{11}\ocsmonth} &
 Dec.  & {\oldslav\def\month{12}\ocsmonth} \\
\end{tabular}
\end{center}
\end{table}
 
\section{Latin/Cyrillic Letters}
\selectlanguage{oldchurchslavonic}
Въ нач'алѣ б`ѣ сл'ово, <и сл'ово б`ѣ къ б_гу, 
<и б_гъ б`ѣ сл'ово. 
[Ѿ <ЇѠ'АННА \slnum(1): \slnum(1).]
 
\vspace{1em}
\textlatin{%
In principio erat uerbum, et uerbum erat apud Deum,
et Deus erat uerbum.
[SECUNDUM IOHANNEM 1:1.]
}%
 
\vspace{1em}
\textrussian{%
В начале было Слово, и Слово было у Бога,
и Слово Бог.
[ОТ ИОАННА 1:1.]
}%
 
\vspace{1em}
\setcyrillicencoding{X2}
{\russiantext%
Въ началѣ было Слово, и Слово было у Бога,
и Слово Богъ.
[ОТЪ ІОАННА 1:1.]
}%
 
\vspace{1em}
\setcyrillicencoding{T2D}
{\russiantext%
Ѧѧ Ѩѩ Ѣѣ Ѭѭ Ѿѿ Ѡѡ ѴѵѶѷ Ѳѳ
}%
\selectlanguage{english}
 
\section{Test with other languages}
\selectlanguage{polutonikogreek}
\begin{verse}
Ἄνδρα μοι ἔννεπε, Μοῦσα, πολύτροπον, ὃς μάλα πολλὰ\\
πλάγχθη, ἐπεὶ Τροίης ἱερόν πτολίεθρον ἔπερσε.\\
πολλῶν δ'' ἀνθρώπων ἴδεν ἄστεα καὶ νόον ἔγνω,\\
πολλὰ δ'' ὅ γ᾽ἐν πόντῳ πάθεν ἄλγεα ὃν κατὰ θῡμόν,\\
ἀρνύμενος ἥν τε ψῡχὴν καὶ νόστον ἑταίρων.\\
ἀλλ'' οὐδ'' ὧς ἑτάρους ἐρρύσατο, ἱέμενός περ;\\
\end{verse}
\hfill [ \textit{Ὅμηρος} ]\qquad\qquad
 
\vspace{2em}
\selectlanguage{russian}
Прежде всего откроем тайну которую Мастер не пожелал
открыть Иванушке.
Возлюбленную его звали Маргаритою Николаевной.
Все, что Мастер говорил о ней, было сущей правдой.
Он описал свою возлюбленную верно.
Она была красива и умна.
 
\hfill {М. Булгаков}
\end{document}

Фиг.2: OldSlav Sample

	Пакет представляет собой free software. Лицензионные условия основаны на LaTeX Project Public License.
	вернуться к началу

citare.sty, LaTeX макровой пакет для цитирования в статьях славянских филологических наук (2006)

citare.sty --- автомотизирует цитаты литератур в статьях филологических наук. \cite в citare.sty показывает самые имени литератур, а не сокращенных формул [No., etc.]. При этом та же литература, цитированная друга за друкой показана сокращением как `Там же', `ibid.', и т. п., а она, когда цитирована не подряд, --- `Цит. соч.', `op. cit.', и т. п. citare.sty выбирает выражения для сокращения по языкам Babel'я

см.: документ citare.sty (японск. текст)

ср. пример LaTeX-документа и его вывод(Фиг.3).

% -*- mode: latex; coding: utf-8; -*-
% citex.tex: Пример на русском тексте citare.sty.
% комманда: % ulatex citex.tex (by Utf82TeX)
\documentclass[b5paper]{jsarticle}% platex2e for Japanese
\usepackage[OT2]{fontenc}% OT2 Cyrillic font encoding
\usepackage[russian]{babel}
\usepackage[opcit]{citare}% citare.sty
\usepackage{ascmac}% pTeX macros
\pagestyle{empty}
\begin{document}
 
\selectlanguage{russian}
\begin{figure}[h]
\begin{center}
\begin{minipage}{0.95\linewidth}
\begin{screen}
\def\thempfootnote{\arabic{mpfootnote}}
\parindent=1em\relax
\selectlanguage{russian}
Пушкинская трактовка более бытовая: 
ничего вне обыденной реальности в сюжет не вводится"---
и фольклористики более точная:
гадание <на зеркало> у Пушкина происходит в бане, а не 
в светлице, как оно и должно быть.
\footnote{\cite[С.~268]{lotman1}}%
 
Таким образом, пушкинсикое 
<подобие того-сего> могло восприниматься как ироническая
отсылка к литературному штампу <шампанское"--- молодости>.
\footnote{\cite[С.~253]{lotman1}}%
 
Принцип противоречий проявляется на протяжения всего 
романа и на самых различных структурных уровнях.
\footnote{\cite[С.~30]{lotman2}}%
 
Не придавая этому высказыванию слишком буквального 
значения, следует все же подчеркнуть его принципиальную 
важность.
\footnote{\cite[С.~18]{lotman1}}%
\end{screen} 
\end{minipage}
\end{center}
\caption{Пример на русском тексте}\label{fig:ex1}
\end{figure}
 
\begin{thebibliography}{99}
 \bibitem{lotman1}%
   {\selectlanguage{russian}
   \textit{\bibauthor{Лотман Ю. М.}}~
   Роман А. С. Пушкина <Евгений Онегин>.
   Комментарий.
   Пособие для учителя.
   Изд. второе.~
   Л: <Просвещение>, 
   1983.}
 \bibitem{lotman2}%
   {\selectlanguage{russian}
   \textit{\bibauthor{Лотман Ю. М.}}~
   Роман в стихах Пушкина
   <Евгений Онегин>.
   Спецкурс.
   Вводниые лекции в изучения текста.
   Тарту, 
   1975.}
\end{thebibliography}
\end{document}

Фиг.3: citare.sty Sample

	Пакет представляет собой free software. Лицензионные условия основаны на LaTeX Project Public License.
	вернуться к началу

Emacs Leim input methods для славянских языков вообще и древнегреческого языка (2004)

Я написал две Emacs Lisp программы, Leim Quail input methods (вводных утилит), «slavonic.el» и «greek-polytonic.el». Эти программы предназначены для ввода языков славянских и древнегреческого на работе редакции текстов на GNU Emacs.

При помощи «slavonic.el» можно вводить знаки, определенные на Unicode «Cyrillic 0400-04FF», то есть, символы не только русских, но и иных славянских «Cyrillic» языков (украинских, македонских, болгариских, церковнославянских, и т. д.).

Так же «greek-polytonic.el» — вводить символы языков, определенные на Unicode «Greek and Coptic 0370-03FF» и «Greek Extended 1F00-1FFF», не только современного греческого, но и древнегреческого, имеющего комплексные акценты.

Программы требуют установки GNU Emacs (20 или 21) Leim пакета, Unicode шрифтов (ucsfonts, /efont/, и т. д.), и пакета для UCS кодировки (Mule-UCS или oc-unicode).

Об установке и пользовании программ см.: Emacs input methods для славянских и древнегреческих языков (документ программ на японском языке)

Пакет представляет собой free software. Лицензионные условия основаны на GNU GPL. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

Программа выработана на основе FreeBSD 4.x, GNU Emacs 20/21.

Фиг.4: Slavonic и Greek-polytonic im

вернуться к началу

Utf82TeX: утилиты для конверсии кодировки UTF-8 текстов на знаки LaTeX'а (2003, 2004)

«Utf82TeX» — пакет для конверсии кодировки UTF-8 текстов на латинские знаки, принимающиеся в LaTeX'е. Это состоит из двух программ «utf82tex» (Perl) и «utf82tex.el» (Emacs Lisp).

«utf82tex» — центральный процессор, написанный языком Perl, который преключает UTF-8 символы, введенные из стандартного ввода, на те ASCII символы или команды в качестве стандартного выхода, которые можно обрабатывать в системе LaTeX'а. Можно управлять знаки славянские (Unicode «Cyrillic 0400-04FF»), греческие [современные, древние, и коптские] (Unicode «Greek and Coptic 0370-03FF» и «Greek Extended 1F00-1FFF») и латинские, определенные на ISO 8859-1 и ISO 8859-2. Формы после конверсии основаны на кодировке многоязычного пакета «Babel», греческого пакета «Teubner», LaTeX T1 encoding (Latin-1, Latin-2), и, в частью, церковнославанского пакета «OldSlav».

«utf82tex.el» — утилита, управляющая «utf82tex» в обстоятельствах GNU Emacs.

Программы требуют установку Perl версии выше 5.8, GNU Emacs (20 или 21), Unicode шрифтов (ucsfonts, /efont/, и т. д.), и пакета для UCS кодировки (Mule-UCS или oc-unicode).

Об установке и пользовании программ см.: Utf82TeX — приготовление документов TeX'а на UTF-8 (документ программ на японском языке)

см.: образец набора после конверсии Utf82TeX

Программа выработана на основе FreeBSD 4.x, Perl 5.8.0, и GNU Emacs 20/21.

вернуться к началу

Опыт статистической обработки текстов А. С. Пушкина (1999)

Это — опыт статистики слов в художественных произведениях А. С. Пушкина и предназначен для исследавания лексики великого поэта на работах пушкинистов.

Подробнее см.: Опыт статистической обработки текстов А. С. Пушкина

вернуться к началу

Опыт динамического составления конкордации к переданному тексту (2001)

Это — опыт конпьютерного динамического составления конкорданции к русским текстам, переданным пользователями, и предназначен для исследавания лексики любого русского электронного текста на работах литератураведов и лингвистов.

Подробнее см.: Опыт динамического составления конкордации к переданному тексту

вернуться к началу

Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка (2002)

«Izhitsa-ltn» — пакет для набора и верстки древнецерковнославянского языка в системе LaTeX'а. Я переделал пакет «Izhitsa» О. Мотыгиным, чтобы приписывать церковнославянские отрывки вместе с японским языком в одном и том же тексте pLaTeX2e'а (японского teTeX'а)

Я не имею никакой авторизации автором оригинала. Если Вы используете мою версию, утверждайте "absolutely no warranty": Употребляйте в своем ответе во всем.

Об описании конкретной спецификации и установки пакета см.: Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка

вернуться к началу

Uso2022: программа для конверсии и транскрипции Compound Text (1998)

«Uso2022» представляет собой программа, которая конвертирует текст, написанный на языке русском, французском, германском и т. д., на «Compound Text», или транскрибирует кириллицы на знаки в LaTeX'е.

«Compound Text» — один из форматов, построенных на принципах ISO 2022 для написания мульти-лингвистического текста. Он определен в UNIX X Window System (после X11R5).

«Uso2022» имеет функции:

Построить Compound Text, вводя «escape sequences» в тексты, кодированные на ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), ISO 8859-2 (Latin-2) или ISO 8859-7 (Greek).
Таким образом Вы можете редактировать русский текст на Mule вместе с японском, и т. д.

Mule («MULtilingual Enhancement to GNU Emacs») — один из вариантов GNU Emacs, но это I18N-Emacs, расширенный японскими исследователями ETL (Electrotechnical Laboratory), может управлять много языков вместе в одном и том же тексте. Включают Mule во FreeBSD japanese ports.
Транскрибировать Compound Text из русских символов, латинских специальных символов и акцентов на символы, определенные в системе LaTeX команды.
При этом Вы можете приписывать японских символы на кодировке ISO 2022-JP (JIS X 0208): «кандзи» — иероглиф, японский фигурный символ, и «кану» — японскую слоговую азбуку. Транскрипция придерживается следующих правил:
- русские символы — основаны на кодировке Вашингтонском Университетом, использованной в стиле «Babel» многоязычного пакета LaTeX'а
- латинские специальные символы и акценты — основаны на кодировке «T1» в системе LaTeX2e
Итак Вы можете писать документы LaTeX'а на русских буквах, разумеется, вместе с буквами японского, французского, германского языка. После этого, перед верстки LaTeX документа, транскрибируйте с помощью «Uso2022».
Транскрибировать русские символы, латинские специальные буквы и акценты в тексте, кодированном на ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), или ISO 8859-2 (Latin-2), на символы, определенные в системе LaTeX команды.
Таким образом Вы можете просто вносить русские тексты из Интернета Internet в документы LaTeX'а.

Об описании конкретной спецификации и установки программ см.: компьютерная грамотность UNIX для славяноведов (документы программы на японском языке)

Эта программа представляет собой free software. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

Программа выработана на основе FreeBSD 2.2.5, GNU C compiler.

вернуться к началу

Staslova: программа для статистики и проверки форм слов (1998)

«Staslova» представляет собой программа, которая подсчитывает количество всех слов, употребленных в данном тексте, и представляет подсчет и контекст тех слов в тексте, которые согласовываются с условными выражениями оператором. Предназначена для анализа художественных литератур или лингвистических материалов, для статистического обзора данных текстов, или для редакции конкорданса к материалам классиков, и т. п.

«Staslova» имеет функции:

Обрабатывать многоязычный текст.
Чтобы «Staslova» право работает, Вам понадобится приготовить текст на формате Compound Text. Таким образом Вы можете употреблять тексты, кодированные на системах ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), ISO 8859-2 (Latin-2), JIS X 0208 (японские кандзи и кана) и одной из иных ISO 8859-X (буквы греческие, гебраические, арабские, и т. д.).

Программа представляет таблицы статистики по языкам (системам кодировки) и на очереди данной кодировки.

И вывод программы, в свою очередь, Compound Text. Таким образом Вы можете отредактировать это с помощью Mule.
Позволять пользователям определить «слова»
Программа разделяет текст на слова. При этом действует по принципу разрыва «разделяющими буквами», которые может определить оператор машины в файле для определения.
Справляться об отрывках, соответствующих выражениям определенным пользователями
Программа проверяет согласие форм всех слов данного текста с условными выражениями, описанными в файле для определения пользователем. При этом Можно использовать неопределенные буквы в одночлене условного выражения.
- *: буква неопределенности согласная с любыми буквами больше нуля
- .: буква неопределенности согласная с одной любой буквой
Можно установить условные выражения более сложные, соединяя одночлены операторами: «*»(AND), «+»(OR) и «#»(NOT), и буквами группировки: «(», «)».
Изменять представления выходов
Можно выбирать из вариантов представления выходов о проверке соглашения:
- уровень 0: подсчет слов, согласных с условными выражениями
- уровень 1: слова и их подсчет согласования + уровень 0
- уровень 2: отрывки данного оригинала-текста, где появляются слова согласные с условными выражениями, и номера строки в тексте + уровень 1

Программа выработана на основе FreeBSD 2.2.5, GNU C compiler.

вернуться к началу

Японский вариант мульти-лингвистического пакета «Babel» и т. д. (для pLaTeX2e)

Я приготовил несколько стилей LaTeX'а, изменивши стиля «Babel» и «WSUIPA», для их употребления вместе с японским языком на pLaTeX2e. (p.2.1.5 версия 7/2/97, Web2c 7.0 и p.2.1.8 версия 9/1/98, Web2c 7.2)

Patch файл на «Babel» 3.6g для японского употребления и файл «japanese.dtx»
Patch файл на «Babel» 3.6v (4/16/99) для японского употребления
Файл стиля-определения фонтов (шрифтов) для NFSS2 — переложение стиля «WSUIPA» пакета (IPA Вашингтонском Штатном Университетом)

Я не имею никакой авторизации автором оригинала. Если Вы используете мои версии, утверждайте "absolutely no warranty": Употребляйте в своем ответе во всем.

Об установке см.: README файл включенный в пакет.

вернуться к началу

Скачивать архивы

Файлы "*.tar.gz" архивированы и уплотнены с помощью программ «Tar» и «Gzip». Возвращайте таким образом (установите рабочую директорию угодно) :

% tar zxvf xxx.tar.gz -C имя_директории

вернуться к началу

History

—	Mar.	7,	1998	Initial.
—	July	16,	2004	Исправил ошибки и прибавил описания.
—	Oct.	17,	2006	OldSlav, citare.sty, etc.
—	Nov.	22,	2009	Исправил ошибки и прибавил описания и фигуры.
—	Jan.	4,	2009	OldSlav-1.1 UTF-8 support, English document.