Skip to main content
Log in

О корпусе русского литературного языка (www.narusco.ru)

On the Corpus of Standard Written Russian (www.narusco.ru)

  • Published:
Russian Linguistics Aims and scope Submit manuscript

Аннотация

В статье излагаются принципы создания сбалансированного корпуса русского литературного языка объемом 1 млн. словоупотреблений с разделением на подкорпусы (художественная литература, драматургия, научно-популярная проза и публицистика). Корпус создан в Лаборатории моделирования речевой деятельности факультета филологии и искусств Санкт-Петербургского государственного университета.

В текстах корпуса восстановлена буква ё и обеспечена сплошная акцентуация. При морфологическом аннотировании применяется система дескрипторов, несколько отличающаяся от обычно используемых.

Корпус строится методами полуавтоматической интерактивной обработки текстов с использованием пополняемых рабочих словарей. Разработчики корпуса считают важным добиться минимизации, а в идеале сведения к нулю ошибок: как представляется, к продукции такого рода должны применяться те же требования, что и к словарям, энциклопедиям, учебникам и пр., т.е. наличие фактических ошибок здесь недопустимо в принципе.

На базе корпуса создан частотный словарь акцентуированных словоформ объемом более 100 тысяч единиц. Несмотря на небольшой объем выборки, распределение наиболее частотных единиц словаря оказалось сопоставимым с аналогичными, полученными на корпусах объемом 100 и более млн. словоупотреблений. Корпус и частотный словарь используются в ряде практических исследований.

Корпус и частотный словарь доступны на сайте www.narusco.ru.

Abstract

This paper describes the basic principles of developing a balanced corpus of Standard Russian. In its present state, the corpus, subdivided into four subcorpora (fiction, drama, popular-science prose and media), includes one million entries. The corpus was created in the Laboratory for Speech Modeling at the Faculty of Philology and Arts, St. Petersburg State University.

In this corpus, the letter ё is reintroduced and all the entries are accentuated. A special system of morphological descriptors is created and used for tagging purposes.

The corpus is systematically expanded by way of semi-automatic interactive processing of texts using enlarged auxilliary lexicons. The corpus developers consider it important to reduce any possible mistakes to the minimum (ideally, to zero): products of this kind should meet the same requirements as those for dictionaries, encyclopedias, textbooks, etc., where factual mistakes cannot be tolerated.

On the basis of the corpus, a frequency wordlist of accentuated wordforms is created. Notwithstanding its modest scope, the distribution of the most frequent entries is found comparable to the figures obtained for larger corpora of 100 million and more entries. The corpus and the frequency list are used in a number of projects in applied linguistics. The corpus and the frequency list are available at the website www.narusco.ru.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Материалы конференций

  • Венцов, А. В., & Грудева, Е. В. (2007). К вопросу о создании частотного словаря словоформ русского языка. В Е. В. Грудева & Р. Л. Смулаковская (ред.), Русская языковая личность: Материалы шестой выездной школы-семинара (Череповец, 25–27 октября 2007 г.) (стр. 70–80). Череповец.

  • Венцов, А. В., Грудева, Е. В., Касевич, В. Б., & Ягунова, Е. В. (2004). Идиомы в Национальном корпусе русского литературного языка. В Международная конференция “Корпусная лингвистика-2004”. Тезисы докладов (12–14 октября 2004 г., С.-Петербург) (стр. 17–18). Санкт-Петербург.

  • Венцов, А. В., Касевич, В. Б., & Сведенцова, Е. А. (2004). Омография, омофония и восприятие речи. В Карпова, Л. А. (ред.), Человек пишущий и читающий: проблемы и наблюдения. Материалы междунар. конфер. (14–16 марта 2002 г., С.-Петербург) (стр. 182–189). Санкт-Петербург.

  • Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2003а). Корпус русских текстов и модель восприятия речи. В Материалы III Всероссийской конференции “Теория и практика речевых исследований” (АРСО-2003), 8–10 сентября 2003 г., Москва, МГУ им. М. В. Ломоносова (стр. 40–44). Москва.

  • Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2004а). Национальный корпус русского литературного языка и разработка модели восприятия речи. В Международная конференция “Корпусная лингвистика-2004”. Тезисы докладов (12–14 октября 2004 г., С.-Петербург). Санкт-Петербург.

Литература

  • Баранов, А. Н. (2003). Введение в прикладную лингвистику. Москва.

  • Баскулина, Ю. Н. (2008). Идиоматические сочетания в русском языке: теоретические и прикладные аспекты (на материале Национального корпуса русского литературного языка). Автореферат канд. филол. наук Санкт-Петербург. ftp://lib.herzen.spb.ru/text/baskulina_un_akd.pdf (03-24-2009).

  • Венцов, А. В., Грудева, Е. В., Касевич, В. Б. и др. (ред.) (2004). Словарь омографов русского языка. Санкт-Петербург.

  • Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2003б). Корпус русского языка и восприятие речи. Научно-техническая информация. Серия 2: Информационные процессы и системы, 6, 25–32.

  • Венцов, А. В., Касевич, В. Б., & Ягунова, Е. В. (2004б). Идиома, слово, фонетическое слово. В Г. Е. Кедрова & В. В. Потапов (ред.), Язык и речь: проблемы и решения. Сборник научных трудов к юбилею проф. Л. В. Златоустовой (стр. 357–363). Москва.

  • Ефремова, Т. Ф. (2004). Толковый словарь служебных частей речи русского языка. Москва.

  • Касевич, В. Б., Венцов, А. В., Грудева, Е. В., & Ягунова, Е. В. (2005). Национальный корпус русского литературного языка: некоторые результаты, приложения и задачи. Научно-техническая информация. Серия 2: Информационные процессы и системы, 6, 35–40.

  • Лефельдт, В. (2006). Акцент и ударение в русском языке. Москва.

  • Резникова, Т. И., & Копотев, М. В. (2005). Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов). В Национальный корпус русского языка: 2003–2005. Результаты и перспективы (стр. 31–61). Москва.

  • Рогожникова, Р. П. (2003). Толковый словарь сочетаний, эквивалентных слову. Москва.

  • Телия, В. Н. (ред.) (1990). Фразеография в Машинном фонде русского языка. Москва.

  • Частотный словарь (1977): Засорина, Л. Н. (ред.) (1977). Частотный словарь русского языка. Москва.

  • Частотный словарь (1993): Лённгрен, Л. (ред.) (1993). Частотный словарь современного русского языка. Uppsala.

  • Штейнфельдт, Э. (1963). Частотный словарь современного русского литературного языка. Таллин.

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Anatolij Vladimirovič Vencov  (Анатолий Владимирович Венцов).

Additional information

Работа выполнена при частичной финансовой поддержке РГНФ (грант № 07-04-00161а).

Rights and permissions

Reprints and permissions

About this article

Cite this article

Vencov, A.V., Grudeva, E.V. О корпусе русского литературного языка (www.narusco.ru). Russian Linguistics 33, 195–209 (2009). https://doi.org/10.1007/s11185-009-9037-8

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11185-009-9037-8

Navigation