Будущее рядом! Домашние андроиды

Фантастика давно уже придумала роботов, есть множество романов, где роботы и положительные и отрицательные; уже сформулированы три закона робототехники; Почему-то в большинстве произведений фигурируют именно человекоподобные роботы. Несколько сотен веков назад даже название придумали – андроид (от греческого andr-, что означает "человек" и суффикс -eides, означающий – "подобный", "схожий"). Видать людям привычнее, когда помощники (роботы) или наставники (Господь) имеют человекоподобный вид.
Но для большинства их массовое внедрение почему-то кажется настолько далеким, что и внуки не доживут. Так ли это?

Давайте рассмотрим, что необходимо для создания андроида:

1. Человекоподобный каркас (иначе какой же это андроид)
2. Ориентирование в пространстве
3. Необязательный. Самостоятельность в зарядке
4. Выполнение приказов
а) распознавание речи
б) распознавание текста
5. Необязательный. Вести светскую беседу, давать советы.

Ну что ж. Давайте пройдемся по всем пунктам отдельно. Проверим что уже реализовано, а чего нам ещё ждать.

Человекоподобная внешность. Ну это самая простая задача – со времен первых роботов, задача которых заключалась только "главное что бы работало" прошло немало времени, габариты сокращались, алгоритмы развивались и это привело к возможности создания массогабаритного варианта андроида. Сейчас их уже появилось множество. Некоторые более популярны, некоторые известны в узких кругах, но разработки в этом направлении не останавливаются ни на секунду.
Для примера предлагаю ознакомиться с выступлением Asimo на Московском Автосалоне в 2008 году:

До домашних помощников ему ещё далеко – управляется он оператором извне. Разговаривать так же не способен. Только произносить введенные оператором фразы.

Как понимаю, - задача ближайшего будущего – облачить андроидов в искусственную кожу, снабдить человекоподобными глазами. Ну и конечно же мимика, с помощью которой люди способны выражать свои чувства.
Для рассматриваемых нами задач это является необязательным и заострять внимание на этом не буду, но всё же кратко остановлюсь, что бы рассказать что в этой области уже существует.

Ещё в 2006 году на 24 выставке Robotics Society of Japan (RSJ) Takashi Maeno из Keio University представил свои достижения в разработке искусственной кожи, схожей по свойствам с кожей человека. Искусственная кожа с возможностью передачи мимики от профессора Маено составлена из 1 см "дермиса" из эластичного силикона, покрытого тончайшим 0,2 мм слоем "эпидермиса" из прочного уретана. Бесчисленное количество сверхминиатюрных выемок, вытравленных в уретановом эпидермисе с соблюдением "сотовой" 6-угольной геометрии, превращают искусственную кожу в потрясающе реалистичную текстуру. При проведении тестирования 85% испытуемых, кто прикасался к искусственной коже, приняли её за натуральную человеческую кожу.
Ниже приведу парочку фотографий роботов с искусственной кожей:

Хорошо, варианты внешнего вида рассмотрели, пора переходить к более сложным задачам. Ориентирование в пространстве и заодно следующий пункт - самостоятельность подзарядки. Ведь если с ним придется возиться как с маленьким – какой же это тогда помощник ;-)

.
В июне 2009 года компанией "Willow Garage" общественности был продемонстрирован Personal Robot 2 (PR2). Задача компании – разработка многофункциональных роботов для повседневного использования в роли помощников (правда как увидите ниже – пока не андроидного типа).
PR2 — четырёхколёсный (все ведущие и управляемые) робот ростом немного ниже человека. Обладает двумя руками и способен выполнять самые различные действия.
Для начала рассмотрим самые необходимые – перемещаться без помощи человека, выходить из тупиков (находить выход из лабиринтов) и естественно искать источники восполнения энергии (в данном случае розетки).

Как видите, со всеми возложенными основными задачами PR2 справляется "на ура". Но и это ещё не всё! Этот робот работает на открытой операционной системе ROS и достаточно обучаем.
Вот вам пример - учёные из Калифорнийского университета в Беркли (UC Berkeley) написали для PR2 алгоритм, позволяющий работать с деформирующимися объектами. Ниже предлагаю ознакомиться с роликом, в котором робот складывает в ровные стопки заранее неизвестные ему полотенца разных форм, цветов и сделанные из различных материалов.

С распространением платформы экспоненциально будет расти и количество различного софта, причем нередко и шуточного направления, как например iPint для iPhone.
Вся электрика, механика, электропитание, электроника и софт расположены в самом роботе. Никаких "внешних мозгов" ему не требуется. То есть для обеспечения функций самостоятельности и выполнения запрограммированных задач как приготовление кофе, стирке никаких высокопроизводительных да ещё и внешних систем не требуется. Запомним это.

Более того – такие технологии (ориентирования на местности) внедряются уже в бытовые приборы, такие как домашние пылесосы! Думаю, все слышали про пылесосы компании iRobot. На данный момент есть две линейки – Roomba и Scooba, каждая из которых содержит по несколько моделей. Причем стоимость хоть и не низкая, но и не заоблачная – в зависимости от "нафаршированности" модели предлагаются по ценам от 550 до 1300 долларов.

В ролике, конечно, выглядит весьма прекрасно (на то он и деморолик), но скажу правду – видел я его в действии на выставках. Хоть там и запатентованная система искусственного интеллекта Aware, анализирующая конфигурацию и рельеф помещения и выбирающая оптимальный маршрут уборки – пока это работает "не ахти как". Тот же андроид Asimo компании Honda, смешно бегающий и обладающий умением ходить по ступенькам производит большее впечатление. Но и стоимость у этих продуктов совсем разная (себестоимость каждого экземпляра немногим менее 1 млн.долл.). И Asimo всё-таки несамостоятельный, в отличие от того же пылесоса или PR2.

Что там дальше? Выполнение приказов.
Про то, что выполняя поручения, роботы не должны причинять вред хозяину или остальным людям, нарушая первый закон робототехники, я касаться не буду – это выходит за рамки рассматриваемого мною. Но для того что бы приказ выполнить – робот должен понять что от него в принципе требуется. И это как ни странно – задача весьма сложная.
Одно дело – выбрать один из пунктов меню с запрограммированным алгоритмом выполнения некоторой задачи и совсем другое – научить андроида понимать естественную речь (или текст) человека (что бы не хозяин подстраивался под помощника, тратя дорогое время на разъяснение задачи). Причем не просто в распознавании слов как таковых, а именно семантический анализ. И у нас есть великолепный пример решения этой задачи (хотя не так давно я считал, что до возникновения такой возможности человечеству ещё ой как далеко).

Сначала рассмотрим как обстоят дела на фронте обычного распознавания текста и речи.

В декабре 2010 года в App Store появилось приложение-переводчик Word Lens. Слышу возгласы многих – ну и что? Как будто мало переводчиков для Iphone? Много-то много, но это первое, обладающее уникальными возможностями (создатели назвали "расширенной реальностью"), а именно – умением накладывать текст на живую картинку в видоискателе iPhone. Пользователь наводит камеру телефона на табличку, книгу, меню в ресторане, указатель на дороге на иностранном языке, Word Lens распознает и на экране вы видите уже на понятном вам языке. Есть фраза – "лучше один раз увидеть, чем сто раз услышать", поэтому предлагаю просмотреть этот видеоролик:

Восхитительно, не правда ли?
В России этот софт остался незамеченным, так как пока переводит только с испанского на английский и обратно. Но как вы понимаете – добавление языков – всего лишь дело времени.
Да, пока качество перевода не идеальное, всего пара языков, но… лиха беда начало. Искренне желаю, что бы проект развивался и дальше.

Не отстают и конкуренты яблочников – например, в январе для ОС Android появился Google Translate с режимом разговора. Вы говорите в микрофон, в ответ слышите перевод. На данный момент эта функция носит экспериментальный характер, поэтому акцент, быстрая речь или шум на фоне сильно влияют на качество работы, но опять же – это первый блин. И получился он не комом!
На слух программа понимает 15 языков, а режим разговора возможен также как и в Word Lens только между английским и испанскими языками. В сентябре 2010 года на выставле IFA 2010, проходящей в Берлине, компания уже демонстрировала работу этой технологии. Предлагаю посмотреть (у кого открывается выступление с самого начала - перемотайте на 26ю минуту):

Впечатляет, верно? Хоть и не идеально.

В отличие от Word Lens, который работает в offline-режиме, - разговорному варианту Google Translate для перевода требуется интернет соединение, так как распознавание и перевод выполняются на стороне сервера. Именно то, что "нам" и требуется! Телефон является только устройством с микрофоном, динамиком и доступом к мощностям серверов. Уж если это реализовали в небольших смартфонах, то запихнуть тоже самое в андроида – легче простого.

Но одно дело – перевод машинный и совсем другое – "научить" робота понимать естественный язык! Что такое "машинный перевод" думаю все знают и мало кто в восторге, когда пытался перевести не конкретные фразы, а на какую-либо тематику. То есть задача семантического распознавания – обязательна для домашнего андроида! И она решена!!!

Речь идёт об суперкомпьютере IBM Watson. Начну издалека. В 2006 году Дэвид Феруччи, старший менеджер отделения IBM по семантическому анализу провел тестирование суперкомпьютера компании, занимавшего одну из лидирующих строчек в ТОП500 (странно, но нигде не нашёл какой же именно суперкомпьютер тестировался, хотя это не так важно) на предмет эффективности ответа на вопросы, заданные естественным языком. Сказано – сделано. В Америке популярна телевикторина "Jeopardy!", аналогичная нашей "Своя игра". Конечно, есть существенные различия в стиле вопросов – в российском варианте преобладают вопросы, ориентированные на логическое мышление, в то время как в американском варианте большинство вопросов основаны на банальном знании большого количества фактов. Это важно понимать!
Отошли от темы, давайте вернёмся. Итак, 5 лет назад компьютеру "задали" 500 вопросов из уже состоявшихся игр Jeopardy! Результаты оказались катастрофическими: по сравнению с живыми игроками, суперкомпьютер думал долго и в тех редких случаях, когда успевал среагировать быстрее соперников - количество правильных ответов не превышало 15%.
Феруччи стало интересно. Видать в IBM любят тратить деньги на перспективные, но сложнореализуемые проекты. Так или иначе, но Феруччи в 2007 году таки смог убедить руководство выделить ему в команду целых 15 талантливейших людей и несколько лет работы для разработки эффективной автоматической системы, способной отвечать на неформализованные вопросы, используя обширную базу данных.
Новый амбициозный проект IBM получил имя Watson. Итогом стал суперкомпьютер на базе 90 кластеров Power 750, содержащий 2880 процессоров серии IBM Power 7. Стоимость – 1млн.долларов. Watson опирается на поиск информации в обширной текстовой базе, включающей выдержки из энциклопедий, справочников и литературных произведений, которые индексированы по используемым в викторине областям знаний. Поиск по ключевым словам после анализа вопроса выделяет наиболее вероятные ответы, которые затем проходят многоэтапную фильтрацию и выстраиваются согласно степени предполагаемой близости к правильному ответу. На весь процесс - не более трёх секунд.
Летом 2010 года на лабораторных испытаниях присутствовали продюсеры "Jeopardy!", которых данная машина впечатлила настолько, что они решили ввести ее в игру уже ближайшей осенью. И вот на прошедшем предварительном туре в январе викторины Jeopardy! система Watson смогла обойти двух признанных чемпионов - Кена Дженнингса и Брэда Раттера. Запись игры с участием суперкомпьютера американские зрители увидели в телеэфире в середине февраля. Роликов с записями игр выложили предостаточно и жилающие сами смогут найти. Приведу один из:

Сделаю небольшое отступление от нашей основной темы, рассказав о некотором нюансе.
Хоть скорость нахождения ответа и впечатляет - как ни странно, но человек способен быстрее нажать на кнопку, чем машина. Дело в том, что каждый вопрос выводится на экран и зачитывается ведущим, причём нажать на кнопку можно только после окончания чтения вопроса. Watson получает текст вопроса в электронном виде одновременно с его выводом на экран, но даже при этом он не успевает прийти к готовому решению быстрее человека. Пока ведущий читает вопрос, на что уходит шесть-семь секунд, опытный игрок уже может оценить свои шансы дать правильный ответ и готов нажать на кнопку за какие-то десятки миллисекунд. На последующий ответ правила отводят ещё пять секунд. Нажимая на кнопку, человек рискует: если он не даст правильный ответ на вопрос за 100 единиц, его виртуальный счёт опустеет на ту же сумму. Компьютер не склонен рисковать (хотя и этому можно обучить, учитывая процент правильных ответов) и выдаёт ответы только после проведения всех расчётов и только в том случае, если у него достаточно сведений для оценки достоверности и вероятности того, что этот ответ правильный. Рискуя, живой игрок может выиграть благодаря тому, что вспомнит нужный ответ за имеющиеся в его распоряжении 11-12 секунд.

Но нам настолько моментальное решение не требуется – подождать несколько секунд для домашнего андроида является приемлемым. Тем более речь идёт даже не о выдаче ответа, а о распознавании задачи, что в принципе выполняется за доли секунды, а вот давать ответы необходимо для пятого необязательного пункта – вести беседу с человеком.

Но вот незадача – посмотрите на характеристики этого героя и поймете, что "запихнуть" сие творение в андроида просто не получится, хоть нам и обещают со временем соорудить "приемников Ватсона" на более дешевых и менее габаритных серверах.
Что же делать? И тут на подмогу приходят решения совсем из других областей. Давайте рассмотрим их, тем более это уже существует и есть великолепные примеры использования.
А говорю я об облачных вычислениях, суть концепции которых заключается в предоставлении конечным пользователям удаленного динамического доступа к услугам, вычислительным ресурсам и приложениям (включая операционные системы и инфраструктуру) через интернет.

То есть нет вообще необходимости в размещении высокопроизводительных систем, занимающих огромные площади, в маленьком объеме андроида. Всё что необходимо – микрофон, динамик, оффлайновое выполнение элементарных функции ориентирования в пространстве, что реализовано даже в пылесосах, возможность самостоятельной подзарядки (и то это пункт не обязателен, но желателен для полной самостоятельности) ну и доступ по беспроводным сетям (надеюсь в том, что лет через 10 найти место, непокрытое сетью будет крайне проблематично никто не сомневается, а в тех местах андроиды пользоваться спросом) к вычислительным мощностям датацентров, которые уже будут и выполнять всю "интеллектуальную" работу. Тем более пример с Google Translate – является доказательством возможности реализации такой возможности.
Как сказал Вячеслав Ан из компании Microsoft на недавнем семинаре – "лет через 5 все мы будем в облаках".

Пора подвести итог.
Как видите, - все необходимые задачи для создания андроида уже реализованы в той или иной мере. Совсем скоро останется все технологии собрать воедино и получить на выходе то, к чему человечество стремится и чего так некоторые боятся. Не требуется ждать появление AI (Искусственного Интеллекта), именно с созданием которого почему-то у большинства и связывается внедрение андроидов. Придут в наши жилища они намного скорее. Тук-тук. Гляньте в глазок – может уже к вам привезли.