Корпусная лингвистика

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 90-х годах XX века в связи с развитием практики создания корпусов, которому способствовало развитие вычислительной техники.

Лингвистическим корпусом называют собрание текстов, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач;
  • представлением лингвистических данных в реальном контексте;
  • достаточно большой представительностью данных (при большом объёме корпуса).

Содержание

История

Первые корпусы появились в США в начале 1960-х годов (корпус Брауна содержал 1 млн словоупотреблений в виде коротких текстов по 2 тысячи символов).

Крупнейшие корпусы

Крупнейшие корпусы на сегодняшний день — это:

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 120 млн словоупотреблений.

Проблемы

Проблема репрезентативности

Не существует объективного критерия отбора текстов для корпусов. Каждая группа руководствуется своей логикой…

Проблема разметки

При разметке текстов возникает ряд проблем…

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска) для упрощения работы исследователя.

Веб как корпус

Для решения ряда прикладных задач в качестве корпуса может использоваться множество текстов, доступных в интернете (а это миллиарды словоупотреблений). При этом могут использоваться как непосредственно поисковые системы вроде Google или Яндекс, так и специальные сайты или программы, представляющие собой интерфейс обычных поисковых систем, более подходящий для лингвистических исследований.

Необходимо отметить, что такой корпус годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.).

На практике ограниченность доступа к корпусам приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос в Google вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается.

Ссылки

 
Начальная страница  » 
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 Home