Информации компьютера для славяноведов и филологов
since Mar. 7 1998
Побежденная трудность всегда приносит нам удовольствие.
— Пушкин
  1. Предисловие
  2. Конкорданс к тексту А. С. Пушкина
  3. OldSlav для набора церковнославянского языка
  4. citare.sty LaTeX макро пакет для цитирования в статьях славянских филологических наук
  5. Emacs Leim input methods для славянских языков вообще и древнегреческого языка
  6. Utf82TeX: утилиты для конверсии кодировки UTF-8 текстов на знаки LaTeX'а
  7. Опыт статистической обработки текстов А. С. Пушкина
  8. Опыт динамического составления конкордации к переданному тексту
  9. Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка
  10. Uso2022: программа для конверсии и транскрипции Compound Text
  11. Staslova: программа для статистики и проверки форм слов
  12. Японский вариант мульти-лингвистического пакета «Babel» и т. д. (для pLaTeX2e)
  13. Скачивать архивы

 

Предисловие

Эта страничка опубликована для услуги исследователей славяноведения и филологии вообще. Я приготовил материалы совсем индивидуально, "voluntarily": Компания, где я работаю, никак не связана с предлагаемой страничкой.

Замечания и предложения принимаются по электронной почте.

вернуться к началу

 

Конкорданс к тексту А. С. Пушкина (2012)

Конкорданс к тексту А. С. Пушкина (КТП) — опыт конпьютерного динамического составления конкорданса к полному собранию сочинений А. С. Пушкина для пушкинистов и филологических исследователей.

КТП поддерживает:

  • Лемматизированный KWIC (Key Word in Concordance).
  • Регулярные выражения для словесного условия KWIC.
  • Вычисление на дистанции между 2 словами. Напр., выражение пестр.*<W3>приня.* дает KWIC слова пестр.* (пестрый, пестреть, пестрота, и др.) отдаленного от слова приня.* на 3 словах. (см. Фиг.1-1)
  • Опции выбора жанров (см. Фиг.1-2).
  • Русскую псевдо-клавиатуру (см. Фиг.1-3).
  • Позиционное указание со ссылкой к данному фрагменту KWIC (см. Фиг.1-4).
  • Подробнее см. tab «Описание» Конкорданс к тексту А. С. Пушкина

    Фиг.1-1: KWIC
    Фиг.1-2: Опции
    Фиг.1-3: Русская псевдо-клавиатура
    Фиг.1-4: Позиционное указание с ссылкой
    вернуться к началу

     

    OldSlav для набора церковнославянского языка (2006)

    OldSlav --- дополнительный пакет LaTeX'а к церковнославянскому пакету SlavTeX'у, сделанному А. Слепухиным. OldSlav имеет функции:
    - Babel language definition file (LDF).
    - дополнительные control sequences для японкской системы pTeX.
    - Комманда для нумерации церковнославянского стиля.
    - Церковнославянский стиль для датировки.
    - Разные методы для ввода (UTF-8, Control Sequense, Cyrillic transliteration, Windows CP1251, ISO 8859-5, KOI8-R, PC-DOS CP866).

    см.:
    - образец набора OldSlav
    - документ OldSlav (англ. текст)

    ср. пример LaTeX-документа: oldslavex.tex и его вывод (Фиг.2).

    % -*- coding: utf-8; mode: latex; -*-
    % OldSlav sample
    \documentclass[a4paper]{article}
    \usepackage[X2,T2D,T2A,T1]{fontenc}
    \usepackage[utf8x]{inputenc}
    \usepackage[russian,polutonikogreek,oldchurchslavonic,english]{babel}
    \languageattribute{oldchurchslavonic}{utf8}
    \def\oldslav{\selectlanguage{oldchurchslavonic}}%
    \makeatletter
    \def\ocsmonth{\slavdateon\ocs@month}%
    \makeatother
    \pagestyle{empty}
    \DeclareFontFamily{LST}{cmr}{}%
    \DeclareFontShape{LST}{cmr}{m}{n}{<-> s * [1.12] fslavrm}{}%
    \begin{document}
    \hfil{\Large\bf OldSlav Sample}\hfil
    \parindent=0pt\relax
      
    \section{UTF-8 input}
      
    \bgroup
    \selectlanguage{oldchurchslavonic}%
    Х|срт'осъ воск_рсе ^из\ъ м'ертвыхъ, см'ертiю см'ерть попр'авь.
      
    <Из\ъ глубин`ы воззв'ахъ къ теб`ѣ, г|сди:
    г|сди, <ѹсл'ыши гл'асъ м'ой.
    \egroup
     
    \section{numeric style}
     
    \verb|\slnum(1000)| $\to$ {\oldslav\slnum(1000)}\qquad
    \verb|\slnum(12)| $\to$ {\oldslav\slnum(12)}\qquad
    \verb|\slnum(666)| $\to$ {\oldslav\slnum(666)}
     
    \section{date style}
    \verb|\today| $\to$ {\oldslav\slavdateon\today}
      
    \vspace{1em}
    {\parindent=3em%
      \selectlanguage{oldchurchslavonic}
      \textlatin{1:} \today\par
      \slavdateon
      \textlatin{2:} \today\par
      \slavdateoff
      \textlatin{3:} \today\par
      \selectlanguage{english}
      4: \today\par
      5: \slavtoday\par
      \slavdateon
      6: \slavtoday\par
      \selectlanguage{english}
      7: \today\par
    }%
     
    \section{month names}
    \begin{table}[h]
     \caption{month names of OldSlav}
    \begin{center}
    \begin{tabular}{ll|ll|ll|ll}
     Jan.  & {\oldslav\def\month{1}\ocsmonth} &
     Feb.  & {\oldslav\def\month{2}\ocsmonth} &
     Mar.  & {\oldslav\def\month{3}\ocsmonth} &
     Apr.  & {\oldslav\def\month{4}\ocsmonth} \\
     May   & {\oldslav\def\month{5}\ocsmonth} &
     June  & {\oldslav\def\month{6}\ocsmonth} &
     July  & {\oldslav\def\month{7}\ocsmonth} &
     Aug.  & {\oldslav\def\month{8}\ocsmonth} \\
     Sept. & {\oldslav\def\month{9}\ocsmonth} &
     Oct.  & {\oldslav\def\month{10}\ocsmonth} &
     Nov.  & {\oldslav\def\month{11}\ocsmonth} &
     Dec.  & {\oldslav\def\month{12}\ocsmonth} \\
    \end{tabular}
    \end{center}
    \end{table}
     
    \section{Latin/Cyrillic Letters}
    \selectlanguage{oldchurchslavonic}
    Въ нач'алѣ б`ѣ сл'ово, <и сл'ово б`ѣ къ б_гу, 
    <и б_гъ б`ѣ сл'ово. 
    [Ѿ <ЇѠ'АННА \slnum(1): \slnum(1).]
     
    \vspace{1em}
    \textlatin{%
    In principio erat uerbum, et uerbum erat apud Deum,
    et Deus erat uerbum.
    [SECUNDUM IOHANNEM 1:1.]
    }%
     
    \vspace{1em}
    \textrussian{%
    В начале было Слово, и Слово было у Бога,
    и Слово Бог.
    [ОТ ИОАННА 1:1.]
    }%
     
    \vspace{1em}
    \setcyrillicencoding{X2}
    {\russiantext%
    Въ началѣ было Слово, и Слово было у Бога,
    и Слово Богъ.
    [ОТЪ ІОАННА 1:1.]
    }%
     
    \vspace{1em}
    \setcyrillicencoding{T2D}
    {\russiantext%
    Ѧѧ Ѩѩ Ѣѣ Ѭѭ Ѿѿ Ѡѡ ѴѵѶѷ Ѳѳ
    }%
    \selectlanguage{english}
     
    \section{Test with other languages}
    \selectlanguage{polutonikogreek}
    \begin{verse}
    Ἄνδρα μοι ἔννεπε, Μοῦσα, πολύτροπον, ὃς μάλα πολλὰ\\
    πλάγχθη, ἐπεὶ Τροίης ἱερόν πτολίεθρον ἔπερσε.\\
    πολλῶν δ'' ἀνθρώπων ἴδεν ἄστεα καὶ νόον ἔγνω,\\
    πολλὰ δ'' ὅ γ᾽ἐν πόντῳ πάθεν ἄλγεα ὃν κατὰ θῡμόν,\\
    ἀρνύμενος ἥν τε ψῡχὴν καὶ νόστον ἑταίρων.\\
    ἀλλ'' οὐδ'' ὧς ἑτάρους ἐρρύσατο, ἱέμενός περ;\\
    \end{verse}
    \hfill [ \textit{Ὅμηρος} ]\qquad\qquad
     
    \vspace{2em}
    \selectlanguage{russian}
    Прежде всего откроем тайну которую Мастер не пожелал
    открыть Иванушке.
    Возлюбленную его звали Маргаритою Николаевной.
    Все, что Мастер говорил о ней, было сущей правдой.
    Он описал свою возлюбленную верно.
    Она была красива и умна.
     
    \hfill {М. Булгаков}
    \end{document}
    			
    Фиг.2: OldSlav Sample

    Пакет представляет собой free software. Лицензионные условия основаны на LaTeX Project Public License.

    вернуться к началу

     

    citare.sty, LaTeX макровой пакет для цитирования в статьях славянских филологических наук (2006)

    citare.sty --- автомотизирует цитаты литератур в статьях филологических наук. \cite в citare.sty показывает самые имени литератур, а не сокращенных формул [No., etc.]. При этом та же литература, цитированная друга за друкой показана сокращением как `Там же', `ibid.', и т. п., а она, когда цитирована не подряд, --- `Цит. соч.', `op. cit.', и т. п. citare.sty выбирает выражения для сокращения по языкам Babel'я

    см.: документ citare.sty (японск. текст)

    ср. пример LaTeX-документа и его вывод(Фиг.3).

    % -*- mode: latex; coding: utf-8; -*-
    % citex.tex: Пример на русском тексте citare.sty.
    % комманда: % ulatex citex.tex (by Utf82TeX)
    \documentclass[b5paper]{jsarticle}% platex2e for Japanese
    \usepackage[OT2]{fontenc}% OT2 Cyrillic font encoding
    \usepackage[russian]{babel}
    \usepackage[opcit]{citare}% citare.sty
    \usepackage{ascmac}% pTeX macros
    \pagestyle{empty}
    \begin{document}
     
    \selectlanguage{russian}
    \begin{figure}[h]
    \begin{center}
    \begin{minipage}{0.95\linewidth}
    \begin{screen}
    \def\thempfootnote{\arabic{mpfootnote}}
    \parindent=1em\relax
    \selectlanguage{russian}
    Пушкинская трактовка более бытовая: 
    ничего вне обыденной реальности в сюжет не вводится"---
    и фольклористики более точная:
    гадание <на зеркало> у Пушкина происходит в бане, а не 
    в светлице, как оно и должно быть.
    \footnote{\cite[С.~268]{lotman1}}%
     
    Таким образом, пушкинсикое 
    <подобие того-сего> могло восприниматься как ироническая
    отсылка к литературному штампу <шампанское"--- молодости>.
    \footnote{\cite[С.~253]{lotman1}}%
     
    Принцип противоречий проявляется на протяжения всего 
    романа и на самых различных структурных уровнях.
    \footnote{\cite[С.~30]{lotman2}}%
     
    Не придавая этому высказыванию слишком буквального 
    значения, следует все же подчеркнуть его принципиальную 
    важность.
    \footnote{\cite[С.~18]{lotman1}}%
    \end{screen} 
    \end{minipage}
    \end{center}
    \caption{Пример на русском тексте}\label{fig:ex1}
    \end{figure}
     
    \begin{thebibliography}{99}
     \bibitem{lotman1}%
       {\selectlanguage{russian}
       \textit{\bibauthor{Лотман Ю. М.}}~
       Роман А. С. Пушкина <Евгений Онегин>.
       Комментарий.
       Пособие для учителя.
       Изд. второе.~
       Л: <Просвещение>, 
       1983.}
     \bibitem{lotman2}%
       {\selectlanguage{russian}
       \textit{\bibauthor{Лотман Ю. М.}}~
       Роман в стихах Пушкина
       <Евгений Онегин>.
       Спецкурс.
       Вводниые лекции в изучения текста.
       Тарту, 
       1975.}
    \end{thebibliography}
    \end{document}
    			
    Фиг.3: citare.sty Sample

    Пакет представляет собой free software. Лицензионные условия основаны на LaTeX Project Public License.

    вернуться к началу

     

    Emacs Leim input methods для славянских языков вообще и древнегреческого языка (2004)

    Я написал две Emacs Lisp программы, Leim Quail input methods (вводных утилит), «slavonic.el» и «greek-polytonic.el». Эти программы предназначены для ввода языков славянских и древнегреческого на работе редакции текстов на GNU Emacs.

    При помощи «slavonic.el» можно вводить знаки, определенные на Unicode «Cyrillic 0400-04FF», то есть, символы не только русских, но и иных славянских «Cyrillic» языков (украинских, македонских, болгариских, церковнославянских, и т. д.).

    Так же «greek-polytonic.el» — вводить символы языков, определенные на Unicode «Greek and Coptic 0370-03FF» и «Greek Extended 1F00-1FFF», не только современного греческого, но и древнегреческого, имеющего комплексные акценты.

    Программы требуют установки GNU Emacs (20 или 21) Leim пакета, Unicode шрифтов (ucsfonts, /efont/, и т. д.), и пакета для UCS кодировки (Mule-UCS или oc-unicode).

    Об установке и пользовании программ см.: Emacs input methods для славянских и древнегреческих языков (документ программ на японском языке)

    Пакет представляет собой free software. Лицензионные условия основаны на GNU GPL. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

    Программа выработана на основе FreeBSD 4.x, GNU Emacs 20/21.

    Фиг.4: Slavonic и Greek-polytonic im
    вернуться к началу

     

    Utf82TeX: утилиты для конверсии кодировки UTF-8 текстов на знаки LaTeX'а (2003, 2004)

    «Utf82TeX» — пакет для конверсии кодировки UTF-8 текстов на латинские знаки, принимающиеся в LaTeX'е. Это состоит из двух программ «utf82tex» (Perl) и «utf82tex.el» (Emacs Lisp).

    «utf82tex» — центральный процессор, написанный языком Perl, который преключает UTF-8 символы, введенные из стандартного ввода, на те ASCII символы или команды в качестве стандартного выхода, которые можно обрабатывать в системе LaTeX'а. Можно управлять знаки славянские (Unicode «Cyrillic 0400-04FF»), греческие [современные, древние, и коптские] (Unicode «Greek and Coptic 0370-03FF» и «Greek Extended 1F00-1FFF») и латинские, определенные на ISO 8859-1 и ISO 8859-2. Формы после конверсии основаны на кодировке многоязычного пакета «Babel», греческого пакета «Teubner», LaTeX T1 encoding (Latin-1, Latin-2), и, в частью, церковнославанского пакета «OldSlav».

    «utf82tex.el» — утилита, управляющая «utf82tex» в обстоятельствах GNU Emacs.

    Программы требуют установку Perl версии выше 5.8, GNU Emacs (20 или 21), Unicode шрифтов (ucsfonts, /efont/, и т. д.), и пакета для UCS кодировки (Mule-UCS или oc-unicode).

    Об установке и пользовании программ см.: Utf82TeX — приготовление документов TeX'а на UTF-8 (документ программ на японском языке)

    см.: образец набора после конверсии Utf82TeX

    Пакет представляет собой free software. Лицензионные условия основаны на GNU GPL. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

    Программа выработана на основе FreeBSD 4.x, Perl 5.8.0, и GNU Emacs 20/21.

    вернуться к началу

     

    Опыт статистической обработки текстов А. С. Пушкина (1999)

    Это — опыт статистики слов в художественных произведениях А. С. Пушкина и предназначен для исследавания лексики великого поэта на работах пушкинистов.

    Подробнее см.: Опыт статистической обработки текстов А. С. Пушкина

    вернуться к началу

     

    Опыт динамического составления конкордации к переданному тексту (2001)

    Это — опыт конпьютерного динамического составления конкорданции к русским текстам, переданным пользователями, и предназначен для исследавания лексики любого русского электронного текста на работах литератураведов и лингвистов.

    Подробнее см.: Опыт динамического составления конкордации к переданному тексту

    вернуться к началу

     

    Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка (2002)

    «Izhitsa-ltn» — пакет для набора и верстки древнецерковнославянского языка в системе LaTeX'а. Я переделал пакет «Izhitsa» О. Мотыгиным, чтобы приписывать церковнославянские отрывки вместе с японским языком в одном и том же тексте pLaTeX2e'а (японского teTeX'а)

    Я не имею никакой авторизации автором оригинала. Если Вы используете мою версию, утверждайте "absolutely no warranty": Употребляйте в своем ответе во всем.

    Об описании конкретной спецификации и установки пакета см.: Izhitsa-ltn: пакет LaTeX'а для древнецерковнославянского языка

    вернуться к началу

     

    Uso2022: программа для конверсии и транскрипции Compound Text (1998)

    «Uso2022» представляет собой программа, которая конвертирует текст, написанный на языке русском, французском, германском и т. д., на «Compound Text», или транскрибирует кириллицы на знаки в LaTeX'е.

    «Compound Text» — один из форматов, построенных на принципах ISO 2022 для написания мульти-лингвистического текста. Он определен в UNIX X Window System (после X11R5).

    «Uso2022» имеет функции:

    • Построить Compound Text, вводя «escape sequences» в тексты, кодированные на ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), ISO 8859-2 (Latin-2) или ISO 8859-7 (Greek).

      Таким образом Вы можете редактировать русский текст на Mule вместе с японском, и т. д.

      Mule («MULtilingual Enhancement to GNU Emacs») — один из вариантов GNU Emacs, но это I18N-Emacs, расширенный японскими исследователями ETL (Electrotechnical Laboratory), может управлять много языков вместе в одном и том же тексте. Включают Mule во FreeBSD japanese ports.

    • Транскрибировать Compound Text из русских символов, латинских специальных символов и акцентов на символы, определенные в системе LaTeX команды.

      При этом Вы можете приписывать японских символы на кодировке ISO 2022-JP (JIS X 0208): «кандзи» — иероглиф, японский фигурный символ, и «кану» — японскую слоговую азбуку. Транскрипция придерживается следующих правил:

      • русские символы — основаны на кодировке Вашингтонском Университетом, использованной в стиле «Babel» многоязычного пакета LaTeX'а
      • латинские специальные символы и акценты — основаны на кодировке «T1» в системе LaTeX2e

      Итак Вы можете писать документы LaTeX'а на русских буквах, разумеется, вместе с буквами японского, французского, германского языка. После этого, перед верстки LaTeX документа, транскрибируйте с помощью «Uso2022».

    • Транскрибировать русские символы, латинские специальные буквы и акценты в тексте, кодированном на ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), или ISO 8859-2 (Latin-2), на символы, определенные в системе LaTeX команды.

      Таким образом Вы можете просто вносить русские тексты из Интернета Internet в документы LaTeX'а.

    Об описании конкретной спецификации и установки программ см.: компьютерная грамотность UNIX для славяноведов (документы программы на японском языке)

    Эта программа представляет собой free software. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

    Программа выработана на основе FreeBSD 2.2.5, GNU C compiler.

    вернуться к началу

     

    Staslova: программа для статистики и проверки форм слов (1998)

    «Staslova» представляет собой программа, которая подсчитывает количество всех слов, употребленных в данном тексте, и представляет подсчет и контекст тех слов в тексте, которые согласовываются с условными выражениями оператором. Предназначена для анализа художественных литератур или лингвистических материалов, для статистического обзора данных текстов, или для редакции конкорданса к материалам классиков, и т. п.

    «Staslova» имеет функции:

    1. Обрабатывать многоязычный текст.

      Чтобы «Staslova» право работает, Вам понадобится приготовить текст на формате Compound Text. Таким образом Вы можете употреблять тексты, кодированные на системах ISO 8859-5 (Cyrillic), ISO 8859-1 (Latin-1), ISO 8859-2 (Latin-2), JIS X 0208 (японские кандзи и кана) и одной из иных ISO 8859-X (буквы греческие, гебраические, арабские, и т. д.).

      Программа представляет таблицы статистики по языкам (системам кодировки) и на очереди данной кодировки.

      И вывод программы, в свою очередь, Compound Text. Таким образом Вы можете отредактировать это с помощью Mule.

    2. Позволять пользователям определить «слова»

      Программа разделяет текст на слова. При этом действует по принципу разрыва «разделяющими буквами», которые может определить оператор машины в файле для определения.

    3. Справляться об отрывках, соответствующих выражениям определенным пользователями

      Программа проверяет согласие форм всех слов данного текста с условными выражениями, описанными в файле для определения пользователем. При этом Можно использовать неопределенные буквы в одночлене условного выражения.

      • *: буква неопределенности согласная с любыми буквами больше нуля
      • .: буква неопределенности согласная с одной любой буквой
         

      Можно установить условные выражения более сложные, соединяя одночлены операторами: «*»(AND), «+»(OR) и «#»(NOT), и буквами группировки: «(», «)».

    4. Изменять представления выходов

      Можно выбирать из вариантов представления выходов о проверке соглашения:

      • уровень 0: подсчет слов, согласных с условными выражениями
      • уровень 1: слова и их подсчет согласования + уровень 0
      • уровень 2: отрывки данного оригинала-текста, где появляются слова согласные с условными выражениями, и номера строки в тексте + уровень 1

    Об описании конкретной спецификации и установки программ см.: компьютерная грамотность UNIX для славяноведов (документы программы на японском языке)

    Эта программа представляет собой free software. Свободно используйте и перестраивайте, если не коммерчески. Но "absolutely no warranty": Употребляйте в своем ответе во всем.

    Программа выработана на основе FreeBSD 2.2.5, GNU C compiler.

    вернуться к началу

     

    Японский вариант мульти-лингвистического пакета «Babel» и т. д. (для pLaTeX2e)

    Я приготовил несколько стилей LaTeX'а, изменивши стиля «Babel» и «WSUIPA», для их употребления вместе с японским языком на pLaTeX2e. (p.2.1.5 версия 7/2/97, Web2c 7.0 и p.2.1.8 версия 9/1/98, Web2c 7.2)

    • Patch файл на «Babel» 3.6g для японского употребления и файл «japanese.dtx»
    • Patch файл на «Babel» 3.6v (4/16/99) для японского употребления
    • Файл стиля-определения фонтов (шрифтов) для NFSS2 — переложение стиля «WSUIPA» пакета (IPA Вашингтонском Штатном Университетом)

    Я не имею никакой авторизации автором оригинала. Если Вы используете мои версии, утверждайте "absolutely no warranty": Употребляйте в своем ответе во всем.

    Об установке см.: README файл включенный в пакет.

    вернуться к началу

     

    Скачивать архивы
     

    Файлы "*.tar.gz" архивированы и уплотнены с помощью программ «Tar» и «Gzip». Возвращайте таким образом (установите рабочую директорию угодно) :

    % tar zxvf xxx.tar.gz -C имя_директории 
    			
    вернуться к началу

    History

     

    Mar. 7, 1998 Initial.
    July 16, 2004 Исправил ошибки и прибавил описания.
    Oct. 17, 2006 OldSlav, citare.sty, etc.
    Nov. 22, 2009 Исправил ошибки и прибавил описания и фигуры.
    Jan. 4, 2009 OldSlav-1.1 UTF-8 support, English document.