Введение в корпусную лингвистику - страница 18
4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.
5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.
6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.
1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.
2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:
a) на фонетическом уровне: быль,
b) на словообразовательном уровне: вынуть,
c) на морфологическом: Вась!,
d) на синтаксическом: Ему весело.
Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?
3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.
(С. Гандлевский)
Глава 6. Морфологическая разметка
Я не устану повторять, что компьютерные программы умеют работать лишь с символьными цепочками (например, буквы С-Т-О-Л или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.
– Доктор, доктор, я лечу!
– Я такого не лечу. (Г. Лукомников)
Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.
Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами. Наиболее простой способ отметить разницу – показать, что та или иная текстоформа относится к определенной начальной форме:
лечу – лететь
лечу – лечить
Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама «начальная форма» стала называться леммой.
Лемму следует отличать от лексемы. В корпусной лингвистике под леммой обычно понимается графическая единица без учета лексических различий. Например, полные омонимы типа