Введение в корпусную лингвистику - страница 18

4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.

5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.

6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.

Задания

1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.

2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:

a) на фонетическом уровне: быль,

b) на словообразовательном уровне: вынуть,

c) на морфологическом: Вась!,

d) на синтаксическом: Ему весело.

Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?

3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.

И блистали столетние липы

Невозможной такой красотой.

Здесь теперь обретаются VIP-ы,

А была – слобода слободой.

И юннат был мечтательным малым —

Слава, праздность, любовь и т. п.

Он сказал себе: «Что если надо

Стать писателем?» Вот он и стал им.

(С. Гандлевский)

Глава 6. Морфологическая разметка

Я не устану повторять, что компьютерные программы умеют работать лишь с символьными цепочками (например, буквы С-Т-О-Л или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.

– Доктор, доктор, я лечу!

– Я такого не лечу. (Г. Лукомников)

Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.

Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами. Наиболее простой способ отметить разницу – показать, что та или иная текстоформа относится к определенной начальной форме:

лечу – лететь

лечу – лечить

Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама «начальная форма» стала называться леммой.

Лемму следует отличать от лексемы. В корпусной лингвистике под леммой обычно понимается графическая единица без учета лексических различий. Например, полные омонимы типа

Назад Вперед

Похожие книги

Введение в корпусную лингвистику

Михаил Копотев

Языкознание

Учебное пособие для студентов филологических и лингвистических специальностей университетовПособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показывают

Читать онлайн

Тематические типовые варианты ЕГЭ-2024 по русскому языку

Алексей Тихонов

Учебная литература

В сборнике вы найдёте 21 тематический типовой вариант ЕГЭ. Варианты составлены в соответствии с демоверсией 2024 года, каждый посвящён одному литературному произведению или текстам русского рока.После заданий даны ответы и примерный круг проблем представленных текстов.

Читать онлайн

Очерки неклассической диалектической педагогики. Педагогика как практическая философия

Юрий Ротенфельд

Языкознание

Исследуя основные категории педагогики, представленные в ней многозначными классификационными понятиями «преподавание», «образование», «учение», «обучение», автор показал необходимость их замены на конкретно-всеобщие сравнительные понятия. Это «противоположное», «ортогональное», «дополнительное», «подобное» и другие. Единство этих однозначных научных понятий определяет и организует всю систему дидактических отношений, характеризующих предмет дида

Читать онлайн

Бундахишн. Великий Бундахишн. Перевод А. Г. Виноградова

Алексей Виноградов

Общая история

«Бундахишн» («Первозданное творение») также называемый Занд-агахих («Знание из Занда»), представляет собой свод комментариев «Авесты».«Бундахишн» сохранился в двух редакциях: «Великий (Иранский) Бундахишн» и сокращенной версии «Малый Бундахишн».«Малый Бундахишн» был найден в Индии и содержит 34 главы. «Великий Бундахишн», содержит 36 глав.В настоящей книге впервые дается перевод на русский язык обеих версий «Бундахишна» на русский язык, иранской

Читать онлайн

Модели личностного бытия в концепции триединства мироздания

Никита Николов

Языкознание

В работе раскрывается онтологическая сущность естественных семиотических элементов – символов букв русского языка, понимаемых в качестве фундаментальных оснований эволюции материальности, а также материи и её идей. Также подчёркивается, что буквы русского языка кодируют многомерную основу моделей личностного бытия, идентичных русскому народу.

Читать онлайн

Жить запрещено

Александр Стребков

Историческая литература

Сюжет романа-хроники основан на реальных событиях, в которых главные герои произведения, как и некоторые персонажи, проходят под собственными именами и фамилиями. Роман написан по рассказам и воспоминаниям главного героя романа Сударикова Павла Тимофеевича и на основе биографий остальных участников событий, потому он и называется хроникой, ибо события, как и отдельные эпизоды и персонажи, являются не вымыслом, а представлены в хронологическом пор

Читать онлайн

Песня Безумного Садовника

Льюис Кэрролл

Зарубежная драматургия

Льюис Кэрролл – автор знаменитой «Алисы в Стране чудес», оксфордский математик, сказочник и философ, диакон англиканской церкви, удивительный человек, подаривший миру не только фантастический мир Страны чудес и Зазеркалья, но и множество стихотворений: ироничных, смешных, абсурдных, чудаковатых – но неизменно увлекательных.Льюис Кэрролл известен и как один из лучших фотографов викторианской эпохи – и неспроста, ведь острый ум, наблюдательность и

Читать онлайн