PCWorld: Тактичная и смешная обитательница iPhone 4S с замужеством не торопится

В продолжение популярной темы персонального ассистента Siri знаменитый ресурс PCWorld опубликовал 25 октября 2011 года статью Дэвида Доу (David Daw) «What Makes Siri Special?» («Что делает Siri особенной?») в которой отстаивается точка зрения о том, что Siri дает начало новой волне приложений для распознавания речи. Благодаря удачному сочетанию возможностей распознавания речи и элементов остроумия, Siri может стать у истоков нового поколения средств распознавания голоса. По крайней мере, такого мнения придерживается Дэвид Доу.

Siri вежливо отказалась выходить замуж за пользователя

Тонкое чувство юмора обитательницы iPhone 4S

Если спросить обитающую в iPhone 4S виртуальную персональную помощницу Siri о том, почему она столь замечательна, ее ответ будет очень скромен: «я — это я» («I am what I am»). Впрочем, в отрасли поговаривают, что на самом деле речь идет о чем-то намного большем, чем то, что мы можем наблюдать на поверхности. Специалисты говорят, что Siri не вписывается в тесные рамки понятия средства для распознавания речи и являет собой пример применения мощного искусственного интеллекта в сочетании со статистическим анализом, позволяющим понимать порою сумбурную речь своего собеседника-человека. К преимуществам новой технологии следует непременно добавить сдержанное чувство юмора Siri. Все это способно сделать ее образцом, на который будут ориентироваться при создании аналогичных технологий для телефонов, планшетов и даже персональных компьютеров. По крайней мере такого мнения придерживаются эксперты, на которых ссылается Дэвид Доу.

По всей видимости, Siri предстала перед широкой публикой весьма своевременно. Тот комплекс технологий, которые в ней задействованы, наконец-то готов к встрече с потребителем. Если попросить Siri подыскать поблизости ресторан, для обработки запроса она задействует не только распознавание речи. Она направит запрос на сервер «в облако», а уж там мощный искусственный интеллект проанализирует все тонкости запроса и постарается выяснить, что именно необходимо пользователю. Затем ответ будет передан на iPhone пользователя. В качестве примера можно сказать, что Siri готова найти ближайший к пользователю мексиканский ресторан. Всего три года назад «облачный» анализ такого уровня сложности был просто невозможен. Сейчас человечество только стоит на пороге знакомства с этой новой технологией, поэтому вся информация о взаимодействии с ней собирается буквально по крупицам.

Siri понимает живую речь

Сервисы, подобные Siri, называют приложениями «обработки живого языка» («natural language processing»). Они используют статистические модели для того, чтобы постараться понять, что было сказано в тех случаях, когда искажено произношение или неудачно подобраны слова. Воспринимающие живую речь программы могут принять предложение: «I like two sailboats around eBay» («Я курсирую вокруг eBay как две яхты») за «I like to sail boats around the bay» («Мне нравится плавать на кораблях вокруг залива»).

Надо сказать, что технологии распознавания речи сравнительно не новы и уже многие годы им уделялось известное внимание. В частности банковские роботизированные платежные системы использовали технологии обработки естественного разговорного языка. Впрочем, во многих банках эти системы в прошлом были не слишком хороши. По крайней мере так пишет Дэвид Доу.

В телефонах на базе Android «облачная» обработка речь используется уже не первый год. В то же время приложение Voice Actions от Google воспринимает только ограниченный набор команд, таких как «listen to…» (слушай…) или «note to self…» («отметь для себя…»). Эти команды используются для старта процесса взаимодействия с сервисом.

Siri же базируется на обучающемся искусственном интеллекте, пополняющем свои знания в процессе общения с пользователем. Чем обшарнее накопленная Siri база знаний, тем точнее она сможет понять не только, что сказал пользователь, но и что он этим хотел сказать на самом деле. В итоге Siri можно будет спросить об одном и том же несколькими различными способами. Поскольку Siri постоянно обитает в iPhone 4S, она знает, где в настоящее время находится пользователь и с кем он чаще всего общается. Знание этих обстоятельств позволит Siri выполнять такие задачи, как «Найти мне такси поблизости» («Find me a cab near here») или «Позвони моей маме» («Call my mother»). Таким образом, Siri сумеет правильно выполнить задачу, если ее попросят не только «позвонить Ивану Иванову», но и «позвонить моему лучшему другу». Она в равной степени корректно поймет суть заданий «позвони моему лучшему другу» и «я хочу говорить с Иваном».

Чем Siri принципиально отличается от своих аналогов?

Пользователи могут говорить с Siri так, как будто это человек. Такая манера общения наиболее привычна для пользователей и, похоже, такой способ взаимодействия с электроникой должен прийтись им по вкусу. Siri понимает своего пользователя и это возможно потому, что она является личностью. Таково мнение Дэвида Доу.

По его мнению, самое раздражающее качество систем распознавания речи — упорство в ошибках интерпретации человеческой речи. То есть, человек говорит одно и то же на некоторый манер, а программа его упорно не желает понимать. Даже с учетом интегрированного в нее комплекса передовых технологий, Siri все еще продолжает допускать ошибки. Существенное отличие состоит в том, что Siri распознает речь в режиме диалога с человеком, а люди привыкли к тому, что в ходе беседы порою приходится сталкиваться с недопониманием сути сказанного ими, что вызывает необходимость поиска более удачной формулировки вопроса или утверждения. Интерфейс Siri таков, что даже, когда она столкнулась с проблемой и потерпела фиаско в попытке понять своего собеседника-человека, она красиво выходит из трудного положения.

Вице-президент SRI Ventures Норман Винарски (Norman Winarsky), работавший c командой Siri до приобретения данного проекта компанией Apple, говорит, что постановка голоса Siri была, возможно, одной из сложнейших из становившихся перед командой задач. SRI Ventures является венчурным проектом Стэнфордского научно-исследовательского института (Stanford Research Institute). Норман Винарски говорит:

Феноменальная личность, с которой вы начинаете знакомиться, очаровывает людей, не нарушая привычного уклада их жизни. Мы очень-очень беспокоились, что манера ее обращения может оттолкнуть людей. Команда плотно работала над созданием такого диалогового режима, в рамках которого [она] откликается по вашему требованию, но не раздражает вас.

Ранее Норман Винарски довольно подробно рассказывал о Siri. Его размышления на тему Siri отражены в статье «9to5Mac: Сенсационное интервью с создателем искусственного интеллекта iPhone 5».

Личности Siri свойственно чувство юмора. Общаться с ней бывает не только весело, но и по-настоящему смешно. Если поинтересоваться у нее, в чем состоит смысл жизни, она можут ответить просто: «42» и понимайте как хотите или же развернуто: «Все имеющиеся на данный момент признаки указывают на шоколад». Если попросить ее закрыть глаза и открыть рот, то она очень извинится и скажет, что ей не позволено этого делать. На предложение пользователя выйти за него замуж, она отвечает: «Мы плохо знаем друг друга». Смешным ответам Siri на не менее смешные, а порою и глупые вопросы пользователей, уже посвящен отдельный ресурс STSS (Shit That Siri Says). О ресурсах, посвященных этой теме, Дэвид Доу пишет по множественном числе. Надо полагать, что есть и другие подобные сайты. Дэвид рекомендует прочесть в связи с этой темой статью Эрика Мэка (Eric Mack) «Top 5 Siri-Based Short Films», размещенную ресурсом PCWorld («Пятерка лучших короткометражных фильмов о Siri») от 18 октября 2011 года.

По словам Нормана Винарски, сначала команда разработчиков Siri сделала ее личностью, а потом Apple, по всей видимости, развила в ней ее индивидуальные качества. Как отмечает ведущий аналитик и основатель Opus Research Дэн Миллер (Dan Miller), интерфейс Siri доставляет столько удовольствия, что в этом отношении приближается к компьютерной игре. По мнению ряда пользователей, эта свойственная Siri забавность делает ее ошибки в распознавании речи простительными.

Когда же распознавание речи станет наконец массовой технологией?

По всей видимости, в ближайшие несколько лет мы увидим скачкообразное развитие голосовых приложений и сервисов, воспринимающих живую речь пользователей. А вот, что думает по этому поводу главный технолог (CTO) Nuance, разработчика популярного распознающего речь программного обеспечения Dragon Naturally Speaking Влад Седжноа (Vlad Sejnoha):

Лучший способ резюмировать то, что сейчас происходит, это отметить начало осознания индустрией того факта, что речь и обработка лингвистической информации могут послужить основным «стройматериалом» пользовательского интерфейса.

В ближайшие несколько лет мы увидим множество инноваций, касающихся использования этого нового «стройматериала». В действительности мы находимся в ключевой временной точке, которая не является завершающей, мы стоим у истоков того, что мы создавать из этого «стройматериала».

Dragon недавно представила собственное приложение обработки живой речи для iOS-устройств под названием Dragon Go, предназначенное для решения довольно специфических задач. Например, врач может дать ему сложную историю болезни, из которой приложение сделает вывод, основанный на наиболее важных симптомах.

Следует ожидать, что в ближайшее время функционал Siri будет расширен. Как полагает Норман Винарски, она будет развиваться быстро, поскольку в настоящее время разработчики развивают некоторые ее возможности. Фактически эти возможности уже имеются, просто над ними надо дополнительно потрудиться. Кстати, одной из функций, которые Apple решила удалить, явилась возможность автоматического заказа через Siri столика в ресторане. По всей видимости, Apple работает в сразу двух направлениях: ведет переговоры и шлифует функции и насколько быстро, насколько это будет возможным, восстановит полный функционал приложения. Для более детального ознакомления с данной темой Дэвид Доу рекомендует прочесть на PCWorld статью Тони Брэдли (Tony Bradley) «Five Things Apple Needs to Do to Improve Siri» от 20 октября 2011 года.

И что же дальше? Возможно Siri интегрируется с музыкальным аккаунтом пользователя, а возможно начнет искать рейсы самолетов в Интернете, а возможно… Впрочем, предположений столько же сколько и пользователей, даже, пожалуй, предположений больше. Практически у каждого пользователя есть сразу несколько пожеланий к Siri.

Разработчикам из Купертино имеет смысл действовать быстро, поскольку выигрыш во времени не будет бесконечным и в этом направлении ожидается плотная конкуренция.

Siri — специалист по общественному питанию или полноценная электронная личность?

Оптимизм экспертов и обозревателей радует, но спустя несколько дней после того, как стали доступны обзоры пользователей Siri, вызывают некоторое смущение несколько моментов, которые следует затронуть хотя бы для того, чтобы прояснить ситуацию. Практически в каждой статье, касающейся данной темы приводится пример качественного поиска с помощью Siri ресторана той или иной национальной кухни. Разумеется, речь идет о расположенных в США заведениях общественного питания. Работа этой функции вызывает поток хвалебных отзывов. Дальше речь идет о «чувстве юмора» и «личностности» Siri. Вторым примером удачного взаимодействия пользователей с Siri является осуществление ею доступа к коммуникации: звонки по просьбе пользователя, сообщения и электронные письма. Высоко оценивают также ее способность определять местоположение пользователя по карте и привязывать к его перемещениям те или иные действия, например, «позвонить жене после выхода с работы».

Создается впечатление (возможно сильно ошибочное), что Siri имеет некий общепитовско-коммуникационно-географический уклон. Если это не совсем так, хотелось бы увидеть в комментариях другие примеры успешного взаимодействия с Siri.

Следует согласиться, что Siri действительно обладает некоторыми зачатками личности. Она может не понять пользователя, еще чаще она не сумеет выполнить его просьбу, но в любом случае ее реакция будет подобна человеческой (не в полной, разумеется, мере): она или прямо ответит, что не может помочь или смутится или отшутится. То есть, поведет себя примерно так же, как повел бы в подобной ситуации человек. Это и вызывает к ней симпатии со стороны многих пользователей. И понять их просто. Человек сталкивается с привычной моделью поведения, той самой моделью, которая вырабатывалась человечеством веками и тысячелетиями. С Siri не нужно запоминать специальные команды, с ней можно просто говорить и временами получать решение своих задач. В ближайшие годы станет ясно, наступила ли уже эпоха голосового интерфейса или пока еще рановато забрасывать клавиатуру на пыльный чердак.

Источник: Pcworld.com, Shitthatsirisays.tumblr.com

iPhone 4S