Образ нерукотворный. Как стартап Clarifai успешно конкурирует с гигантами отрасли
Летом 2013 года Мэтью Зейлер работал над диссертацией по искусственному интеллекту, AI (от англ. artificial intelligence), в Нью-Йоркском университете, а за ним уже охотились технологические гиганты. Он завершил стажировку в группе AI в Google и вскоре неожиданно (на пробежке по набережной Гудзона) получил звонок с незнакомого номера. На трубке был Алан Юстас, вице-президент Google по инжинирингу, он хотел взять Зейлера на постоянную работу. Зейлеру посулили самые лучшие условия, которые в компании когда-либо предлагали молодому специалисту. Он не сказал, сколько именно ему предложили, Google отказался от комментариев. Но, по свидетельствам осведомленных людей, суммарная компенсация топовых специалистов, обладающих экспертным знанием, может составлять до нескольких миллионов долларов в течение четырех лет. Так Google сделал первую ставку в борьбе за Зейлера и его разработки в области глубокого обучения — самой прорывной технологии AI. А несколько дней спустя Зейлер получил еще более заманчивое предложение от Microsoft. После чего ему позвонили из Apple, а когда он прилетел в Кремниевую долину, то Марк Цукерберг стал искать личной встречи с ним, чтобы пригласить в новую исследовательскую группу AI в Facebook. Зейлер вежливо отказывался от всех предложений: он решил основать свою компанию с амбициозной миссией — бросить вызов техногигантам, которые его осаждали. «Это был совершенно безумный период, — вспоминает он. — Я мог выбрать безопасный путь — присоединиться к технологическому гиганту, вместо того чтобы заниматься своим стартапом. Но я понимал, что должен делать все сам». Уже тогда Зейлер знал, что по некоторым проблемам AI его алгоритмы работают лучше гугловских. Прошло четыре года, и Clarifai — стартап Зейлера со штаб-квартирой в Нью Йорке — считается самым перспективным на тесной поляне машинного обучения. Компания предлагает инструменты распознавания образов и видео разработчикам, которые готовы конкурировать с Google, Microsoft и иже с ними. Подобно тому как Stripe и Twilio облегчают программистам создание платежных и коммуникационных сервисов, Clarifai дает своим клиентам доступ к технологиям AI, стоимость самостоятельной разработки которых исчисляется миллионами. Технологии от Clarifai позволяют автоматически анализировать миллионы образов и видео и используются такими компаниями, как Unilever, BuzzFeed, Ubisoft и Staples U.K., а также производителями медицинского оборудования и дронов. Выручка стартапа пока не велика, но, по прогнозам близких к компании источников, в будущем году она достигнет $10 млн. Успехи Clarifai замечательны. В последние годы AI, и в особенности технологии, которые называют глубоким обучением или глубокими нейронными сетями, — на переднем краю технических достижений. Они работают аналогично мозгу, в них есть свои «нейроны» и «синапсы». Они достигли существенных успехов в таких областях, как распознавание образов и речи, что, в свою очередь, подталкивает развитие много чего, — от медицины до беспилотных автомобилей и роботов. Но возникла проблема: в погоне за талантами самые богатые технологические компании начали поглощать целые факультеты в университетах, не говоря уже о стартапах. Агрессивнее других ведет себя Google — 11 приобретений на конец июля, причем за две компании, DeepMind и api.ai, заплачено в сумме более $1 млрд. Почти все стартапы, которые конкурировали с Clarifai, уже поглощены: Amazon купил Orbeus, Salesforce приобрел MetaMind, IBM заполучил AlchemyAPI. В распознавании образов Clarifai остался единственным конкурентом Amazon, Google, IBM и Microsoft, которые продают эти технологии своим клиентам, работающим с облачными вычислениями. Компания Зейлера уже отказалась от нескольких предложений о слиянии. Конечно, Clarifai недостаточно мощна по сравнению с конкурентами, но Зейлер уверен: есть своя выгода в том, чтобы быть Швейцарией в этой глобальной войне. Очень многие компании, которым для их продуктов нужны технологии AI, опасаются делиться своими данными с гигантами вроде Google или Amazon. Взять, к примеру, Photobucket. Поначалу этот фото- и видеохостинг покупал необходимые инструменты у Amazon, Google и IBM, но теперь он — один из крупнейших клиентов Clarifai. «Всякий раз, когда имеешь дело с Google, думаешь: а не возьмут ли они твои данные для обучения своих систем», — делится опасениями Майк Ноулз, старший разработчик инфраструктуры Photobucket. Дело в том, что приложение Photos от Google конкурирует с Photobucket. Аналогичные опасения возникают и у других клиентов крупнейших компаний, говорит Зейлер: «Гиганты открывают все новые подразделения, которые начинают конкурировать с их клиентами. А мы этого не делаем». Зейлер вырос в канадском городке Босежур, неподалеку от Виннипега, и в свои 30 лет совсем не похож на человека, бросившего вызов техническим супердержавам: с длинными волосами, которые он подстригает не чаще чем два раза в год, он до сих пор выглядит как студент или даже старшеклассник. Но увлеченность AI привела его к очень уважаемым наставникам. Интерес к этой области пробудило в нем видео с мерцающим пламенем. Когда он учился в Университете Торонто, этот ролик показал ему знакомый аспирант Грэм Тейлор, огонь в нем выглядел абсолютно натурально, хотя изображение было сгенерировано компьютером с помощью технологии AI. Тогда Зейлер только начинал изучать основы программирования, но то пламя было как будто из другой области. Ни один человек не программировал, чтобы оно мерцало именно так, — компьютер сам проанализировал массив видеоданных, выделил паттерн и сгенерировал новое видео. «Я был ошеломлен, — вспоминает Зейлер. — Это был совершенно новый способ заставить компьютер делать то, что тебе нужно. Я должен был это понять». Тейлору понравился этот амбициозный и при этом такой непосредственный студент, и он привел Зейлера в исследовательскую лабораторию под руководством Джоффри Хинтона, который считается крестным отцом нейросетей. В лаборатории Хинтона Зейлер занимался применением технологий AI для описания брачных ритуалов голубей, его дипломная работа называлась «Изучение поведения голубей с использованием бинарных скрытых переменных». В своем выпуске он был лучшим. Зейлер продолжил образование в аспирантуре Нью-Йоркского университета, где Тейлор получил временное место после защиты диссертации (начальником Тейлора был Ян Лекун, еще один пионер глубокого обучения, сейчас он возглавляет подразделение AI в Facebook). Работая над своей диссертацией, Зейлер дважды практиковался в Google и работал там под руководством Джеффа Дина, главы только что созданной исследовательской группы, которая называлась Google Brain. С этой группой сотрудничал тогда и Хинтон (сейчас он работает в Google, продолжая преподавать в университете). Google Brain с тех пор превратилась в одну из наиболее важных и престижных исследовательских групп в компании. В ноябре 2013 года, вскоре после своей второй практики и уже оканчивая аспирантуру, Зейлер основал Clarifai. Компания стартовала успешно. Разработанные Зейлером алгоритмы распознавания образов были высоко оценены индустрией на весьма престижном конкурсе ImageNet. Годом ранее, в 2012-м, на ImageNet мир поразила команда из лаборатории Хинтона (Университет Торонто), представившая технологии глубокого обучения: погрешность в распознавании составила у них всего 15%, притом что предыдущим рекордом было 25%. В 2013 году Зейлер продемонстрировал 12%. Несколько месяцев Зейлер работал один, расширяя возможности своих нейросетей и переписывая код, чтобы получить конкурентоспособный на рынке продукт. Чтобы искать в сети изображения для тренировки алгоритмов, он установил у себя в квартире четыре сервера. Из-за их постоянной работы в комнате было жарко (в буквальном смысле), и приходилось открывать окна, хотя была зима. К апрелю 2014 года Зейлер нанял второго сотрудника, и они разместили серверы в дата-центре в Нью-Джерси, и там уже Clarifai начала свой рост. В октябре 2014-го он сделал свой сервис доступным для сторонних разработчиков. Первым клиентом компании стал сайт Style Me Pretty, посвященный аранжировке свадеб, он использует алгоритмы Clarifai для распознавания и сортировки фотографий и генерирования рекламных предложений, которые связаны с предметами, изображенными на фото. В 2015 году были получены первые инвестиции — раунд на $10 млн разместила нью-йоркская Union Square Ventures. В числе корпоративных инвесторов оказались Qualcomm, Nvidia и, что самое интересное, венчурное подразделение Google. Спустя год в следующем раунде, который размещала одна из старейших венчурных компаний Кремниевой долины Menlo Ventures, Clarifai «подняла» еще $30 млн при оценке $120 млн. «Технологические гиганты работают над аналогичными продуктами, но там никто не просыпается по утрам с мыслью сделать самый лучший сервис для распознавания образов», — говорит партнер Menlo Мэтт Мерфи. Сейчас в Clarifai 55 сотрудников, среди них 10 заняты только тем, что отслеживают новейшие достижения в области AI. В прошлом году к Зейлеру на должность директора по работе с клиентами перешел один из старейших «сейлзов» Google. Недавнее исследование консалтинговой фирмы CapTech показало, что в распознавании образов Clarifai остается конкурентом Amazon, Google и Microsoft, а в ряде случаев даже переигрывает их. Но, чтобы сохранить свои позиции и тем более чтобы развиваться, необходимо привлекать талантливых разработчиков, а это маленькой фирме нелегко. В феврале в Clarifai на должность руководителя аналитического отдела перешла Андреа Фроум из Google, но, проработав четыре месяца, неожиданно уволилась. Зейлер объяснил ее уход проблемой с разграничением полномочий. Доступ к большим массивам данных для «тренировки» алгоритмов — тоже область, в которой Clarifai не может тягаться с более крупными конкурентами. Один из недавних инструментов, разработанных Clarifai, тренирует модели AI на смартфонах, а не в облаке. В июле Зейлер продемонстрировал это в лобби отеля в Сан-Франциско. Он взял свой треснувший iPhone 6 и, вращая камеру, показал, как распознаются разные объекты — стулья, камин, люди, автомобили (в окне). Таким же образом он «натренировал» свой MacBook. Проникновение передовой технологии в знакомые и очень важные для жизни устройства наглядно убеждает в потенциале глубокого обучения. «Это лишь вершина айсберга возможностей этих систем», — говорит Зейлер. Читайте также Давид и Голиаф: зачем большие компании возятся со стартапами Под присмотром: во сколько обойдется система распознавания лиц на улицах Москвы