Компания xAI, основанная Илоном Маском, представила новую версию своей мультимодальной модели искусственного интеллекта – Grok 3. В рамках агрессивной стратегии по захвату рынка компания объявила о временном бесплатном доступе к технологии, что вызвало значительный интерес в технологическом сообществе. Особое внимание привлекли возможности системы в области генерации изображений, где Grok 3 демонстрирует впечатляющий прогресс по сравнению с предыдущими версиями.
Технологическая мощь, стоящая за новой версией Grok, впечатляет. Система работает на суперкомпьютере Colossus, оснащенном 100 000 графических процессоров Nvidia H100, а для обучения модели было использовано 200 миллионов GPU-часов. По заявлениям разработчиков, это позволило создать систему, которая в 10-15 раз мощнее своего предшественника.
В ходе практических испытаний Grok 3 продемонстрировал как сильные стороны, так и определенные ограничения. Особенно впечатляющих результатов система достигает в создании реалистичных текстур и работе с освещением. При генерации изображения выдры, играющей на укулеле, модель показала отличное качество передачи меха животного и детализации окружающей среды, хотя и допустила некоторые анатомические неточности.
Интересной особенностью Grok 3 является возможность итеративного улучшения изображений через дополнительные промпты. Пользователи могут последовательно добавлять новые элементы к существующим изображениям, что открывает широкие возможности для творческого процесса. Например, добавление радуги к сцене с выдрой было реализовано успешно и органично.
Однако система демонстрирует определенные слабости при работе со сложными пространственными композициями. Показательным примером стала попытка создать изображение кошки внутри винного бокала – задача, с которой конкурирующие решения, такие как Flux 1.1 Pro Ultra и ChatGPT с моделью GPT-4o, справились заметно лучше. Это указывает на то, что алгоритмы Grok 3 пока не достигли уровня лидеров рынка в понимании сложных пространственных отношений между объектами.
Особого внимания заслуживает способность системы работать с текстом в изображениях. Тесты показали, что Grok 3 успешно справляется с интеграцией текстовых элементов в визуальный контент, создавая органичные и читаемые надписи, что важно для создания инфографики и рекламных материалов.
В области генерации человеческих фигур Grok 3 демонстрирует впечатляющую точность. При создании изображения пожилого гончара система корректно передала анатомические детали, включая правильное количество пальцев – задача, с которой часто испытывают трудности другие ИИ-генераторы. Качество передачи текстур кожи, морщин и взаимодействия с материалами находится на уровне ведущих решений рынка.
Однако существуют и технические ограничения: Grok 3 работает только с квадратным форматом изображений (соотношение сторон 1:1), что может быть существенным недостатком для профессиональных пользователей, нуждающихся в более гибких форматах для различных целей.
Несмотря на эти ограничения, временная бесплатная доступность Grok 3 представляет собой отличную возможность для экспериментов с технологией. Заявление Илона Маска о постоянном совершенствовании модели позволяет предположить, что текущие ограничения могут быть преодолены в будущих обновлениях.
Grok 3 представляет собой значительный шаг вперед в развитии технологий генерации изображений, хотя и не революционный прорыв. Система демонстрирует впечатляющие результаты в определенных областях, но пока не может полностью конкурировать с лидерами рынка по всем параметрам. Тем не менее, учитывая мощность задействованной инфраструктуры и заявленное постоянное совершенствование, Grok 3 имеет потенциал для дальнейшего развития и может стать серьезным игроком на рынке ИИ-генерации изображений.