Введение в корпусную лингвистику - страница 6
В любом случае современная лингвистическая работа часто невозможна без перевода текстов в электронную форму, что автоматически превращает их в, так сказать, «корпус первого порядка». И это прекрасно, что старые корпуса не умирают, а продолжают жить, наполняясь аннотациями, расширяясь и углубляясь. Как поется в одной старой песенке, «работа есть работа, работа есть всегда».
1. Прочитайте в Википедии статью про Панини на русском и на любом иностранном языке. Какая из статей оказалась более информативной?
2. Существуют ли конкордансы священных книг основных религий мира? С помощью Яндекса или Гугла попробуйте найти конкордансы Корана, Торы (Пятикнижия Моисея), Трипитака.
3*. По вашему мнению, кого из русских лингвистов «доцифровой» эпохи (условно говоря, до 1970-х годов) можно назвать «корпусным» лингвистом в докорпусную эру? Почему?
Глава 3. Самые известные корпуса
Два крупнейших специализированных каталога CLARIN (www.clarin.eu/) и ELRA (http://www.elra.info/) содержат информацию о более чем трех тысячах корпусов. Каждый год появляются новые корпуса, новые форматы и новые типы данных. Значительное число корпусов создается и уже создано для многих языков. Они активно используются как для лингвистических исследований, так и в прикладных целях. Вы можете сами посмотреть, сколько ресурсов создано для английского языка, сколько для русского или для любого другого. Ниже я подробно опишу самые известные и крупные корпуса (список основных корпусов для множества языков можно найти по адресу: www.aclweb.org/aclwiki).
1. Британский национальный корпус (British National Corpus, BNC)
http://www.natcorp.ox.ac.uk/; corpus.byu.edu/bnc
100-миллионый корпус разговорных и письменных текстов британского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую разметку.
2. Американский национальный корпус (American National Corpus, ANC)
22-миллионный корпус разговорных и письменных текстов американского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую, частично синтаксическую разметку и разметку составных имен собственных.
3. Несколько корпусов испанского языка:
Корпус испанского языка (Сorpus del español)
http://www.corpusdelespanol.org/
Содержит тексты XIII–XX веков объемом ок. 100 млн слов. Есть частеречная и металингвистическая разметки.
Корпус современного испанского языка (Corpus del español actual, CEA)
sfn.uab.es:8080/SFN/tools/cea/english
Содержит около 540 млн лемматизированных и морфологически аннотированных слов, извлеченных из Википедии и юридических документов (резолюции ООН и документы Европарламента).
4. Итальянский корпус (Corpus di Italiano Scritto)
Содержит современные письменные итальянские тексты объемом около 130 млн слов. Содержит частеречную разметку.
5. Корпус немецкого языка Cosmas II (das Projekt COSMAS II)
http://www.ids-mannheim.de/cosmas2/
Вторая версия немецкого национального корпуса, объединяющая свыше 100 разных подкорпусов общим объемом свыше 8,7 млрд слов. Содержит морфологическую и синтаксическую разметки.
6. Лексическая база данных французского языка FRANTEXT (le corpus Frantext)