Заметили, что гаджеты стали лучше понимать речь и обрабатывать наши запросы? Отчасти причина этому – развитие науки, которая называется корпусной лингвистикой. Об том, и о том, как живут современные ученые, занимающиеся этим вопросом, журналист Bright, математик департамента машинного обучения и анализа больших данных Финунивера Москвы, Алевтина Шаталова узнала у математика, доктора университета Орегона, Хауэлла Николаса Лернера.
В настоящее время я решаю задачи в области компьютерной лингвистики – это про то, как улучшить работу чат-ботов или сделать компьютерный перевод более точным. Если говорить научным языком, то мои текущие исследовательские интересы в области языковых технологий включают извлечение правил для нейронных сетей и приложений для морфологического анализа, применение стойких гомологий в машинном обучении, разработку и применение технологии многопоточных преобразователей, выявление и решение проблем в разработке языковых технологий для языков с низким уровнем ресурсов.
Хотя я математик, программирование использовал всегда, в любой исследуемой области. Реализация моделей на компьютере – это неотъемлемая часть хорошего исследования, хотя, конечно, сложно сказать об объективных критериях «хорошего» исследования. Здесь не существует четких алгоритмов, это не медицина. Что действительно новое для меня в последнее время – это основы лингвистики. Раньше вообще не занимался этой наукой, даже не задумывался над этим.
Наверное, нет. Я выбираю инструменты в зависимости от того, что изучаю. Каждый метод имеет свои ограничения и об этом нужно помнить.
Больше всего занимаюсь статистикой. Это сложная тема, связанная с проблемой интерпретации. Полученные данные нужно понять и объяснить и здесь возникает множество сложностей. Некоторые связаны с математическими проблемами, а некоторые с лингвистическими. Например, из статистики проблема в правильном формировании генеральной совокупности и репрезентативной выборки, которые напрямую связаны с качеством используемого материала. А в теории языка это то, что в языкознании больше специалистов, которые создают интересные красивые теории, но очень мало каких-либо методов численных проверок.
В корпусной лингвистике мы говорим об использовании больших объемов текстовой информации, сведенной в единую базу, специальным образом размеченной и называемой корпусом. И вопрос в том, из чего берется этот объем: из какой лексики, какие словосочетания, диалекты, жаргонизмы и т.д. На сегодняшний день существует множество корпусов, созданных с различными целями, на базе различного языкового материала, охватывающего от миллионов до десятков миллиардов лексических единиц.
И иногда встает вопрос о невозможности обобщения полученных результатов.
Там, где возможно использование языка, возможно и использование корпусов текстов. Например, можем создавать программы определяющие тональности, активно использующихся в политике и бизнесе для отслеживания положительных и негативных отзывов избирателей и клиентов и т.д.
Также подключение информационной системы к словарям и переводчикам улучшает качество перевода. Существуют разнообразные научно-исследовательские задачи, способствующие пониманию устройства языка, истории его развития и предсказаний его изменения в ближайшем будущем. Еще благодаря корпусной лингвистике стало возможным разрабатывать системы извлечения информации на основании морфологических, синтаксических, семантических и иных признаков.
Меня интересуют языки малых групп и редкие языки. Например, если сравнивать количество литературы на английском языке и, например, на греческом. То первый объем не сопоставим со вторым. Это определяет качество жизни каждой из групп. В Греции оно значительно ниже, чем у англоязычных людей. И я говорю не только о доступе к информации, а например, о невозможности коммуницировать со всем миром.
Мой друг лингвист пару раз привлекал меня для своих проектов и потом я начал уже развивать собственные в этой области.
Ну, в России студенты более ограничены в плане дисциплины. Все очень серьезные и сдержанные. Обстановка несколько официальная. У нас же семинары проходят больше в неформальной обстановке. Мы много шутим и смеемся…
Ну, тут сложно давать какие-либо советы. Все очень индивидуально. Но, в общем, можно сказать, что нужно для себя решить две задачи – первая, поставить себе какую либо проблему, которую вы бы хотели решить в корпусной лингвистике, а второе – найти ментора, который поможет вам в этом разобраться и даст дальнейший вектор развития.
Комментарии: |