Журнал Bright
  • Журнал Bright
  • Лица
  • События
  • Мнения
  • Путешествия
  • На глубине
  • Архив
  • О журнале

Языковые курсы для машин: беседа с ученым о корпусной лингвистике

20.12.2021Лица, Мненияadmin

Заметили, что гаджеты стали лучше понимать речь и обрабатывать наши запросы? Отчасти причина этому – развитие науки, которая называется корпусной лингвистикой. Об том, и о том, как живут современные ученые, занимающиеся этим вопросом, журналист Bright, математик департамента машинного обучения и анализа больших данных Финунивера Москвы, Алевтина Шаталова узнала у математика, доктора университета Орегона, Хауэлла Николаса Лернера.

  1. Привет, расскажи, пожалуйста чем занимаешься сейчас.

В настоящее время я решаю задачи в области компьютерной лингвистики – это про то, как улучшить работу чат-ботов или сделать компьютерный перевод более точным. Если говорить научным языком, то мои текущие исследовательские интересы в области языковых технологий включают извлечение правил для нейронных сетей и приложений для морфологического анализа, применение стойких гомологий в машинном обучении, разработку и применение технологии многопоточных преобразователей, выявление и решение проблем в разработке языковых технологий для языков с низким уровнем ресурсов.

  1. Звучит «математично», но это без моделирования на компьютере не реализовать? Ты сейчас стал больше заниматься программированием, чем раньше?

Хотя я математик, программирование использовал всегда, в любой исследуемой области. Реализация моделей на компьютере – это неотъемлемая часть хорошего исследования, хотя, конечно, сложно сказать об объективных критериях «хорошего» исследования. Здесь не существует четких алгоритмов, это не медицина. Что действительно новое для меня в последнее время – это основы лингвистики. Раньше вообще не занимался этой наукой, даже не задумывался над этим.

  1. Есть ли любимые математические методы?

Наверное, нет. Я выбираю инструменты в зависимости от того, что изучаю. Каждый метод имеет свои ограничения и об этом нужно помнить.

  1. Как сейчас создаешь модели?

Больше всего занимаюсь статистикой. Это сложная тема, связанная с проблемой интерпретации. Полученные данные нужно понять и объяснить и здесь возникает множество сложностей. Некоторые связаны с математическими проблемами, а некоторые с лингвистическими. Например, из статистики проблема в правильном формировании генеральной совокупности и репрезентативной выборки, которые напрямую связаны с качеством используемого материала. А в теории языка это то, что в языкознании больше специалистов, которые создают интересные красивые теории, но очень мало каких-либо методов численных проверок.

  1. Да, интересно. Есть везде странности. Например, в России нельзя стать доктором лингвистических наук. Если твоя научная работа посвящена этой области, ты получишь ученую степень по филологии. А чем занимается такая область, как корпусная лингвистика?

В корпусной лингвистике мы говорим об использовании больших объемов текстовой информации, сведенной в единую базу, специальным образом размеченной и называемой корпусом. И вопрос в том, из чего берется этот объем: из какой лексики, какие словосочетания, диалекты, жаргонизмы и т.д. На сегодняшний день существует множество корпусов, созданных с различными целями, на базе различного языкового материала, охватывающего от миллионов до десятков миллиардов лексических единиц.

И иногда встает вопрос о невозможности обобщения полученных результатов.

  1. А зачем вообще все это нужно?

Там, где возможно использование языка, возможно и использование корпусов текстов. Например, можем создавать программы определяющие тональности, активно использующихся в политике и бизнесе для отслеживания положительных и негативных отзывов избирателей и клиентов и т.д.

Также подключение информационной системы к словарям и переводчикам улучшает качество перевода. Существуют разнообразные научно-исследовательские задачи, способствующие пониманию устройства языка, истории его развития и предсказаний его изменения в ближайшем будущем. Еще благодаря корпусной лингвистике стало возможным разрабатывать системы извлечения информации на основании морфологических, синтаксических, семантических и иных признаков.

  1. А какую проблему ты решаешь с помощью корпусной лингвистики?

Меня интересуют языки малых групп и редкие языки. Например, если сравнивать количество литературы на английском языке и, например, на греческом. То первый объем не сопоставим со вторым. Это определяет качество жизни каждой из групп. В Греции оно значительно ниже, чем у англоязычных людей. И я говорю не только о доступе к информации, а например, о невозможности коммуницировать со всем миром.

  1. Как ты попал в корпусную лингвистику? 

Мой друг лингвист пару раз привлекал меня для своих проектов и потом я начал уже развивать собственные в этой области.

  1. Ты работал в России, преподавал в Высшей школе экономики. Что можешь сказать по поводу атмосферы на семинарах в Штатах и у нас?

Ну, в России студенты более ограничены в плане дисциплины. Все очень серьезные и сдержанные. Обстановка несколько официальная. У нас же семинары проходят больше в неформальной обстановке. Мы много шутим и смеемся…

  1. А, да! Я была удаленно на вашем семинаре в Индиане. Поразила неформальная обстановка. Я бы больше хотела создавать науку в такой среде. А какой совет можно дать, человеку, который хотел бы в этом всем разобраться?

Ну, тут сложно давать какие-либо советы. Все очень индивидуально. Но, в общем, можно сказать, что нужно для себя решить две задачи – первая, поставить себе какую либо проблему, которую вы бы хотели решить в корпусной лингвистике, а второе – найти ментора, который поможет вам в этом разобраться и даст дальнейший вектор развития.


Предыдущая запись Пять непереводимых слов из разных уголков мира Следующая запись Криптоисскуство прикосновения: NIVEA запускает NFT-проект
Комментарии:

Добавить комментарий Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *

CAPTCHA
Обновить

*

Свежие записи

  • Мотивирующие фразы известных женщин
  • Лучшие места в мире для полетов на воздушном шаре
  • Синдром самозванца: как определить и исцелить
  • Весна в доме – время обновления
  • Пять причин обниматься чаще
Email
Vkontakte

Рубрики

©Bright live
ЭЛ № ФС 77 — 58164.

Политика конфиденциальности
__________
Наш ресурс является общедоступным и часть материала на нём размещается авторами, поэтому, при обнаружении материала, который вы считаете своим собственным, напишите нам в редакцию и мы решим проблему, вплоть до его исключения со страниц нашего сайта.