Введение в корпусную лингвистику - страница 16



Если раньше большое количество сил и времени при создании корпусов-коллекций отнимали сбор материала и перевод его в цифровую форму, то современный корпус легко справляется с этими задачами, поэтому он уже должен содержать не только тексты, но и их аннотацию, или разметку (англ. annotation, mark-up, tagging).

Аннотация – это приписанная всем единицам выбранного уровня (текст, предложение, словоформа и т. д.) соответствующая лингвистическая информация. Например, морфологически аннотированный корпус содержит морфологический разбор частей речи – по сути такой же, какой вы делали в школе, но только не для одного-двух, а для всех слов. Представьте, сколько времени надо потратить, чтобы сделать морфологический разбор хотя бы ста тысяч слов!

Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.

● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.

● Разметка общедоступного корпуса должна быть «теоретически нейтральна», то есть схема разметки по возможности должна не разрывать с традицией, а опираться на знакомую всем систему понятий. Если корпус предназначен не для конкретного проекта, то при его разметке стоит избегать пусть и строгих, но авторских, необщеприняых классификаций, которые требуют предварительного знакомства с той или иной теорией.

● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.

Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».

В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:

● звуковой: звук (аллофон);

● просодический: фонетическое слово (или фраза);

● словообразовательный: морфема;

● морфологический: словоформа;

● лексический: лексема;

● синтаксический: предложение.

Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.