Рамблер
Все новости
В миреФильмы и сериалыФутболНовости МосквыОтдых в РоссииХоккейПолитикаОтдых за границейЕдаОбществоАктерыЛайфхакиПроисшествияКрасотаЛичный опытПсихологияНаука и техникаШоу-бизнесЭкономикаТрендыВоенные новостиКомпанииАналитикаЛичный счетИгрыНедвижимостьДетиФигурное катаниеДом и садЛетние виды спорта
Личные финансы
Женский
Кино
Спорт
Aвто
Развлечения и отдых
Здоровье
Путешествия
Помощь
Полная версия

Alphabet Inc представила новую версию нейросети Gemini Pro 1.5

Alphabet Inc, материнская компания Google, представила новую версию своей флагманской модели искусственного интеллекта. Нейросеть Gemini Pro 1.5 способна обрабатывать в несколько раз больше аудио, видео и текста, чем модель GPT-4, на которой основан популярный чат-бот от OpenAI. В частности, по заявлениям разработчиков, в контекстное окно нейросети можно вместить всю трилогию «Властелин колец». Технологическая борьба искусственных интеллектов давно ведется между Google и OpenAI. Особенности новой модели Gemini Pro 1.5 комментирует главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин главный архитектор систем ИИ исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «Это мультимодальная модель, то есть она воспринимает не только текст, но и аудио, видео, изображения. В общем, данные в любой модальности. Но это уже тоже не завтрашний день. У модели OpenAI тоже есть мультимодальная модель, та же GPT-4, она двухмодальная как минимум. Она воспринимает одновременно и текст, и изображение. Этой мультимодальности часто добиваются при помощи многоагентных систем, когда у нас есть множество агентов, GPT, чат-боты, и они взаимодействуют между собой. Один отвечает за текст, другой за обработку изображений, третий за музыку, четвертый за звуки. То есть вот такое многообразие агентов в единой среде, где они могут взаимодействовать друг с другом и решать задачи. И существует единая точка входа, интерфейс взаимодействия с этой многоагентной системой с пользой. Собственно, сейчас очень много уже решений прикладных построено именно на этой архитектуре. И для чего делать единую такую модель, в которой невозможно выделить отдельных агентов, которые обрабатывают голос, звуки, тексты и так далее, мне, честно говоря, непонятно. То, что я видел в рекламных роликах про Gemini от Google, честно говоря, немножко пугает. Возможности этой модели настолько велики, что действительно пугают даже меня, человека, который с ИИ больше 30 лет работает. Но потом оказывается, что эти ролики постановочные и ничего такого, что там показано, на самом деле нет. То есть Google немножко спешит. Примерно так же, как действовала Boston Dynamics, когда своих робособак показывала. Они немножко там все-таки привирают все».

Технологическая борьба искусственных интеллектов, которая давно ведется между Google и OpenAI, продолжается.

В пятницу OpenAI объявила о создании новой нейросети для генерации видео — Sora. Модель способна создавать минутные видеоролики по текстовому описанию. Причем результат отличается высоким качеством: видео получаются очень реалистичными, в том числе с изображением людей, животных и быстро движущихся объектов.