Рубріки: Мнение

Надежды, которые не сбылись: раньше ИИ не хватало технологий, а сейчас — креатива

Вікторія Пушкіна

03.12.2021 16:47

На Дартмутском семинаре 1954 года ученые думали, что создадут совершенный ИИ за три года, — и провалились. А сегодня новости о новых нейронках появляются каждый день и все говорят, что будущее уже здесь. Как мы дошли до такой жизни, рассказал на конференции Conversations 2021 CEO EORA Роман Доронин.

Highload послушали и принесли вам с пылу с жару текстовую версию его выступления.

Далее со слов Романа Доронина

____________

На недавней конференции GTC November 2021 исполнительный директор NVIDIA Дженсен Хуанг заявил, что уже в ближайшем будущем вокруг нас будет много роботов, которые будут помогать нам с повседневными делами. Кто-то из них будет виртуальным, кто-то — физическим.

Благодаря computer vision, анимации, искусственному интеллекту и пониманию языка все это возможно уже сейчас. Но как именно от мечты про ИИ в 1950-х мы добежали к тому, что у нас есть?

Давайте посмотрим историю развития ИИ на примере Conversational AI — то есть голосовых ассистентов.

Эра больших надежд

Вернемся в 1950-й, когда появился тест Тьюринга и открыл вселенную Conversational AI, потому что задал вопрос: «Может ли машина быть умнее человека?». С того момента ключевой задачей математики в этой области стало распознавание речи.

Реализовать ее решение удалось только в 1961 году. IBM выпустил Shoebox — систему, которая умела распознавать 16 слов, включая числа от 0 до 9 и такие команды, как «плюс», «минус» и «сумма».

На презентации IBM Shoebox создатель системы Уильям Дерш продемонстрировал, как она понимает, какие числа ей называют, и может их правильно сложить.

Обратите внимание, сколько времени прошло с теста Тьюринга до Shoebox — 11 лет (!). Для следующего прорыва понадобилось столько же: только в 1972 году исследователи университета Карнеги-Меллона описали программу, которая могла распознавать до 1000 слов.

А первый коммерческий продукт с распознаванием речи — DragonDictate от компании Dragon Systems (сейчас Nuance) вышел только в 1992 году. Он понимал, что ему говорят, только если пользователь делал паузы между словами.

Эра больших надежд закончилась в 2001 году. Ее последние важные события — выход «Скрепки» от Microsoft и последующее добавление функции распознавания речи в Office XP.

Эра больших надежд

Если проанализировать эти пятьдесят лет, становится ясно, почему она называется именно «Эра больших надежд»: казалось, что вот-вот, еще чуть-чуть и секрет ИИ будет раскрыт. В 1954 году на Дартмутском семинаре ученые думали, что создадут компьютерное сознание за три года. Но этого не произошло.

Чего не хватило? Вычислительных систем, данных — всего, что является фундаментом машинного обучения сейчас. И что запустило в 2011-м «большую гонку».

Эра большой гонки

Часть первая

В 2011 Apple выпустил Siri. И это было невероятным прорывом.

Уже через год появился Google Now — возможность гуглить голосом. В 2013 году Microsoft подтянулся и выпустил Cortana. А в 2014 Amazon анонсировал умную колонку Echo с Alexa внутри.

Только посмотрите, как ускорились темпы: за четыре года технологии развились настолько, что можно было не просто распознавать голос, но и слышать и понимать его с другого конца комнаты, не воспринимая лишние шумы.

Пик «эры большой гонки» наступил, когда в Alexa появились инструменты для сторонних разработчиков. В нее стало возможно добавлять новые навыки и уже к концу 2014 году количество этих навыков превысило 10 тысяч.

Часть вторая

В 2016 году гонка ускорилась еще больше: если раньше счет шел на годы, то теперь он начал идти на месяцы:

Март 2016 — Amazon выпускает бюджетную колонку Echo Dot
Март 2016 — Google анонсирует ассистента как отдельное приложение

Август 2016 — Microsoft добавляет голосовое управление в Xbox
Сентябрь 2016 — Amazon запускает продажи Echo в Германии и Англии, то есть (1) американский рынок пресытился, (2) распознавание речи начало затрагивать и другие языки тоже
Октябрь 2016 — Samsung включается в гонку и покупает создателей Siri, компанию Viv
Ноябрь 2016 — Google выпускает сразу и свою умную колонку Google Home, и смартфон с голосовым ассистентом Google Pixel

В 2017 все только нарастало: Samsung выпустил ассистента Bixby, Google начал встраивать голосовое распознавание в телевизоры и другие устройства, а еще добавил возможность распознавания разных голосов — например, разных членов семьи (до шести человек).

Последний пункт — это очень важный момент, потому что это означало, что теперь системы могли менять свое поведение, в зависимости от того, кто с ними разговаривает.

Гонка стала настолько большой, что ее масштабы уже невозможно охватить. В июле 2017 года Amazon выпустил колонку с экраном и Conversational AI вышло за рамки текста и голоса. Стало появляться все больше сценариев интеграции и доступных сред, форм, инструментов для сторонних разработчиков.

Что же будет дальше?

Эра (чего-то еще?)

«Все должно быть интерактивно», — говорит Дженсен Хуанг в своем выступлении на GTC November 2021 и приводит в пример «говорящий киоск» в токийском кафе, работающим на системе NVIDIA Omniverse.

В такой системе есть уже не только распознавание голоса, но и эмпатия и продвинутая графика. Вот каким ИИ был вчера:

И вот какой он сегодня:

Мой робкий итог: сейчас акцент смещается с ресерча. Количество публикаций о нейронных сетях невозможное. У нас есть мощная технологическая база: новые архитектуры, opensource-инструменты и готовые решения. Наш новый челлендж — разработка пользовательского интерфейса, подходящего для новых интеграций.

Мы должны быть гибкими и изобретательными. Машинное обучение нуждается в людях из креативных индустрий — тех, кто сможет придумать что-то иначе на инструментах, которые у нас уже есть.