Введение в корпусную лингвистику - страница 13
Языковая разметка
Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):
Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.
Общение на барабанах
Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.
Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами, представляющими весь язык в целом во всех его жанрах и разновидностях, закрепилось название национальные корпуса.
«Национальный» не значит, что корпус принадлежит какой-то нации. Это значит, что корпус представляет национальный вариант какого-то языка. Такое употребление является производным от англ. national corpus (то есть корпус национального варианта какого-то языка, например, British National Corpus «корпус британского варианта английского языка» или НКРЯ – Национальный корпус русского языка).
Национальные корпуса готовятся много лет, часто по государственным программам и в рамках больших проектов. При всей их сбалансированности и полноте такие статичные корпуса не успевают реагировать на быстрые, текущие изменения в языке, особенно в лексике. Для решения этих задач создаются мониторинговые корпуса (англ. dynamic/monitor corpus), которые позволяют следить за языком в режиме реального времени, день в день.