Большие данные, искусственный интеллект, нейронные сети – благодаря этим технологиям существенно изменились целые отрасли: финансы, питание, туризм. В чем разница между этими технологиями, Bright решил выяснить у Владимира Соловьева, декана Факультета информационных технологий и анализа больших данных Финансового университета.
Искусственный интеллект – это общее название технологий, которые позволяют машинам выполнять интеллектуальные функции, которые раньше был способен выполнить только человек. И почти всегда искусственный интеллект настолько прочно встраивается в нашу жизнь, что перестает считаться чудом. Например, сто лет назад только человек мог перемножить два восьмизначных числа. Пятьдесят лет назад электронным калькулятором уже никого нельзя было удивить, но, например, решение о выдаче кредита мог принять только человек. Сейчас во всех банках работают кредитные фабрики – кому выдать кредит, а кому нет, решают машины. Это стало возможным благодаря развитию одной из наиболее важных технологий искусственного интеллекта – машинного обучения. Это когда машина учится на известных данных: например, ей показали анкеты большого числа заемщиков, которые брали кредиты в прошлом, и кто-то вернул их, а кто-то нет. На основании этих данных строится алгоритм, который для нового клиента определяет, с какой вероятностью он вернет кредит. И дальше заемщики заполняют анкеты на сайте, и машина по анкете определяет, кто вернет кредит, а кто нет. Существуют разные алгоритмы машинного обучения. Какие-то из них известны очень давно, например, линейная регрессия, разработанная в 1809 году или логистическая регрессия, предложенная в 1940-х годах. Какие-то методы более современные, например, деревья и леса решений, которые начали использовать с 1980-х годов, или нейронные сети, которые были придуманы в 1950-х, но компьютеры, на которых нейронные сети способны обучаться, стали массово доступны только в 2010-х. Деревья решений и нейронные сети сейчас являются наиболее распространенными алгоритмами машинного обучения. Во многих областях их потенциал примерно одинаков. Так, поиск Яндекса в основном построен на деревьях, и немножко в нем используются нейронные сети. Поиск Google построен в основном на нейронных сетях, но в нем есть немножко деревьев. По эффективности эти две поисковые машины примерно одинаковы. Но для анализа сложных данных, таких как фото, видео, звук, применимы только нейронные сети.
Большие данные – это данные, которые не помещаются в компьютер. Ни в настольный компьютер, ни в корпоративный сервер, ни в суперкомпьютер «Ломоносов». И технологии работы с такими данными большого объема, которые требуется обрабатывать быстро, есть уже давно.
Отличия между обычными данными и большими данными примерно такие же, как между обычными грузами и большими грузами. Если нам нужно доставить длинномерный груз, то мы используем длинномерный автомобиль, который водить сложнее, чем обычный, но существует отработанная технология и много водителей, умеющих управлять длинномерами. Точно так же, большие данные обрабатывать сложнее, чем обычные. Ведь их нужно разделить на части, которые хранятся на разных компьютерах, и уметь правильно соединять для обработки и вычислений. Но технологии такие отработаны, и многие вузы, в том числе Финансовый университет, готовят инженеров по большим данным.
Хотя и разработка моделей машинного обучения, и обработка больших данных – это инженерные задачи, требующие творческого подхода, машинное обучение в большой степени является искусством, поскольку чтобы сделать хорошую предсказательную систему, нужно глубоко погрузиться в предметную область, и самым сложным и самым важным этапом является правильная постановка задачи.
Комментарии: |