Корпусная лингвистика

Онлайн-массивы текстов для разных языков

Национальный корпус русского языка (ruscorpora.ru)
На этом сайте помещен корпус современного русского языка объемом более 140 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Corpora.Yandex.ru - Национальный корпус русского языка на Яндексе

Британские словари и корпуса - текст в формате Power Point - (corpora.iling.spb.ru)
Британский национальный корпус - 90 млн.слов (письм.)
- информация- 70% 1975-1990-ые
- книги (50%), - периодика (20-30%)
- международные дела - 15%, социально-общественные дела - 15%
- творчество - 30% 1960-1974 (25%) и 1975-1990-ые (75%)
5 млн. слов письменных и неопубликованных текстов

Корпуса английского языка - полезные ссылки на английском языке (appling.kent.edu/resources.html)

ECI/MCI - European Corpus Initiative

Linguee.de - Интернет в качестве словаря. Массивы параллельных текстов: немецкий, английский, французский, испанский, португальский

Worldlingo.com - многоязычный архив текстов

Статьи и учебники по корпусной лингвистике

Корпусная лингвистика - статья в Википедии

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Захаров В.П. Корпусная лингвистика. Учебное пособие (2005) (Фонд "Ломоносов" - lomonosov-fund.ru)

Учебное пособие для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста. Содержит описание предмета, а также включает программу учебной дисциплины «Корпусная лингвистика» отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета.

Киселев М.В., Шмулевич М.М., Эрлих А.И. Метод автоматической кластеризации текстов и его применение
Статья опубликована в выпуске журнала № 2 за 2008 год. [ 24.06.2008 ] (wsys.ru)

Одним из перспективных направлений повышения эффективности работы алгоритмов, использующих древовидные структуры для кластеризации текстов, является расширение пространства правил, находящихся в узлах деревьев.

Простейшими видами сущностей являются имена, даты, названия организаций, географические названия. Для их выделения используем регулярные выражения. После выделения сущностей происходит их нормализация, занесение в таблицу сущностей и включение соответствующих им правил в список правил для кластеризации. 

Помимо регулярных выражений, для выделения сущностей в алгоритме используются тезаурус WordNet и набор словарей.

Одна из важнейших областей применения метода автоматической кластеризации текстов с помощью выделения стандартных сущностей и учета совместной встречаемости в документах ключевых терминов – анализ динамики тематической структуры потока новостей.

Рахилина Е.В. Корпус как творческий проект. Научная статья (2009) (Фонд "Ломоносов" - lomonosov-fund.ru)

Рыков.В.В. (Москва). Сопоставление корпусной и традиционной лингвистик (russian.slavica.org)

Корпус текстов:

  • некоторый филологический объект;
  • организованное словесное множество, элементами которого являются определённым образом отобранные тексты;
  • организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов.

Рыков В.В., Клименко С.В. Три статьи по корпусной лингвистике (rykov-cl.narod.ru)

  • Прагматически ориентированный корпус текстов
  • Корпус текстов как принцип самоорганизации предметной области
  • Логическяя индукция и дедукция как принципы отражения предметной области в корпусе текстов.

Последним и самым важным свойством является представительность (РП). Оно определяет – какую внекорпусную реальность отражает корпус (или желает отразить его составитель). ...тексты, входящие в корпус текстов Пушкина, газету Известия и даже специально отобранные для машинного корпуса пословиц, строго говоря, отражают только самих себя. Вернее, они отражают, соответственно, мир образов, понятий, лингвистические и прочие особенности текстов Пушкина, газеты «Известия» или русских пословиц.

Д.В. Сичинава.  К задаче создания корпусов русского языка (mccme.ru/ling/mitrius/article.html)

Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных, если не основным методом лингвистических исследований, при помощи которого могут решаться самые разные задачи. Между тем отечественная лингвистика, как известно, отстаёт в этом отношении от современного состояния зарубежных исследований; созданный еще в 1960-е годы (и то вне России) Уппсальский корпус русских текстов остаётся, насколько нам известно, единственным завершённым и активно используемым проектом такого рода.

Не говоря уже об устарелости его материалов и ограниченности объёма (1 млн. словоупотреблений), нужно указать прежде всего на то, что он не является лингвистически аннотированным (то есть в нём не указаны морфологические, синтаксические, семантические свойства тех или иных сегментов текста, что затрудняет поиск по нему), в то время как современная лингвистика оперирует в основном аннотированными корпусами (treebanks). Начиная с 1980-1990-е годы работа над созданием компьютерных баз данных по русскому языку ведется в рамках Машинного фонда русского языка при Институте русского языка РАН под руководством В. М. Андрющенко 

Соснина Е.П. Корпусная лингвистика и корпусный подход в обучении иностранному языку // Corpus Linguistics and Corpus-Based Approach in Foreign Language Teaching (ling.ulstu.ru)

Электронные корпусы в языковом обучении.  Параллельные корпусы в обучении языку и переводу. Учебные корпусы в исследованиях по освоению языка. Программы-конкордансы в прикладной лингвистике.

В настоящее время особенно распространены корпусы (или параллельные тексты) художественной литературы, хотя для обучения переводу в вузе следует разрабатывать корпусы разных жанров и стилей и в первую очередь ориентироваться на научно-технические, публицистические и деловые тексты.

FILOLOGIA.SU : Вся филология и лингвистика на одном сайте
© Юрий Новиков (Skype: EGOWELT). 2009-2024
Яндекс.Метрика Рейтинг@Mail.ru
сайт создан и работает на системе создания и управления сайтом CMS EDGESTILE SiteEdit
Сайт создан и работает на системе EDGESTILE SiteEdit