Горячие направления развития и применения искусственного интеллекта
От робототехники до здравоохранения и дизайна париков, технологии искусственного интеллекта (ИИ) оказали влияние на широкий спектр отраслей. Согласно анализу данных компании Crunchbase, доля финансовых инвестиций, получаемых стартапами в области ИИ в последние годы колеблется от 9% до 10%. Самый большой объем финансирования приходится на робототехнику, автономные транспортные средства и корпоративное программное обеспечение. При этом инвестиции быстро увеличиваются также и в другие отрасли. ИИ находит все более широкое применение в биотехнологии, компьютерном зрении, лингвистике, финтехе, разработке полупроводников, безопасности, логистике, обучении, агротехе и т.д. Внедрение и использование технологий искусственного интеллекта – не только создают возможности развития нового бизнеса сами по себе, но и применение их для решения различных бизнес-задач, создания новых продуктов и услуг – представляют широкие возможности для предпринимательства.
Еще в 2013 году финансирование компаний, использующих ИИ, составило всего 3 миллиарда долларов при менее чем 1000 сделок. В 2021 году финансирование ИИ достигло пика в 69 миллиардов долларов, а количество сделок увеличилось в 4 раза.
В данном посте мы расскажем о некоторых быстро развивающихся секторах в этой области.
Синтетические данные в моделях ИИ
Синтетические данные — это информация, созданная искусственно, а не в результате реальных событий. Синтетические данные создаются алгоритмически и используются в качестве замены для тестовых наборов производственных или операционных данных, для проверки математических моделей и, все чаще, для обучения моделей машинного обучения.
Преимущества использования синтетических данных включают снижение ограничений при использовании конфиденциальных или регулируемых данных, адаптацию потребностей в данных к определенным условиям, которые невозможно получить с помощью аутентичных данных, и создание наборов данных для тестирования программного обеспечения и обеспечения качества для команд DevOps.
Компании, от здравоохранения до финансов, экспериментируют с синтетическими наборами данных. В отраслях, где нет достаточного количества реальных данных для обучения ИИ, или где соблюдение требований и конфиденциальность являются серьезными проблемами, предприятия обращаются к синтетическим наборам данных: искусственно созданным изображениям, видео или табличным данным, которые аналогичны наборам данных из реального мира.
Недостатки синтетических данных включают несоответствия при попытке воспроизвести сложность, обнаруженную в исходном наборе данных, и невозможность прямой замены аутентичных данных, поскольку точные аутентичные данные по-прежнему требуются для получения полезных синтетических примеров информации. Несмотря на это многие компании активно используют эту технологию. Наиболее широкое применение она находит в медицине, финансах и телекоммуникациях.
Компания Illumina использует данные синтетической геномики, разработанные стартапом Gretel, для медицинских исследований. Эти две компании пришли к выводу, что требования законодательства и необходимость получения согласия пациентов, существенно ограничивают скорость и масштабы медицинских исследований, основанных на реальных данных пациентов. Чтобы обойти эту проблему, Gretel использовала данные реального генотипа и фенотипа для обучения алгоритма ИИ, который генерировал сет искусственных геномных данных.
В финансовом секторе J.P. Morgan обучает финансовые модели ИИ с помощью синтетических данных.
По оценкам, до 85% реальных данных о клиентах в телекоммуникационной отрасли непригодны для использования из-за отсутствия согласия клиентов, что затрудняет анализ поведения и прогнозирование. Так компания Telefónica совместно со стартапом Mostly AI формирует синтетические профили клиентов, которые отражают статистические закономерности реальных данных.
Кто победит в гонке создания микросхем с интегрированным ИИ
Быстрый коммерческий успех ИИ в разных отраслях создает растущий спрос на специализированное оборудование, которое может обслужить ресурсоемкие рабочие процессы ИИ. Такие потребности существуют как в облачных центрах обработки данных, так и на периферийных устройствах, таких как, например фото камеры.
Прежде на этом рынке безусловно доминировали графические процессоры NVIDIA. Но с ростом спроса на рынке появились новые игроки.
Например, последние модели смартфонов Google Pixel оснащены собственными процессорами производителя – Tensor. Они предназначены для поддержки приложений искусственного интеллекта на устройстве. А Amazon в четвертом квартале 2021 года выпустил процессор Graviton3, свой собственный чип для логических операции ИИ в AWS.
В гонку также вступают и стартапы. Компания Cerebras Systems предлагает «Wafer-Scale Engine (WSE) — революционный центральный процессор для компьютерной системы глубокого обучения. “…это самый большой из когда-либо созданных компьютерных чипов и самый быстрый процессор искусственного интеллекта на Земле.. В отличие от процессоров общего назначения, WSE был создан с нуля для ускорения глубокого обучения: 850 000 ядер для тензорных операций, огромная встроенная память с высокой пропускной способностью и соединения на несколько порядков быстрее, чем традиционный кластер” – говорится на их сайте.
Однако гигантские микропроцессоры не подходят для многих повседневных приложений ИИ из-за ограничений по размеру и требований в энергопотреблении. Соответственно, все больше компаний предлагают процессоры ИИ, которые можно использовать с периферийными устройствами, такими как автомобильные датчики, камеры, роботы и т. д.
Над такой задачей работают стартапы, включая Mythic, Syntiant и Kneron, которым для разработки этой технологии удалось привлечь более 100 миллионов долларов каждый.
Компании Untether AI и HOUMO.AI, работают над другим подходом к решению задачи — создание комбинированных микросхем, объединяющих процессор ИИ и память компьютера – «вычислениями в памяти». Высокий уровень интеграции в таких системах может обеспечить значительный прирост производительности по сравнению с традиционными системами. Компания Samsung сообщает, что такой подход позволил ей более чем вдвое увеличить скорость нейронной сети распознавания речи при одновременном сокращении ее энергопотребления также вдвое.
Еще одна компания Graphcore также пытается поднять производительность, работая со структурой процессора. Она использует подход, называемый «процессор 3D». Эта технология подразумевает соединение нескольких сетов микросхем вместе и создания интегрированного стека. В том числе, Graphcore включил в стек микросхему, управляющую энергопотреблением. В результате процесс обучения нейронной сети происходит на 40% быстрее и с более низким расходом энергии.
Другие компании полностью отказываются от физики обычных микросхем ИИ. Они разрабатывают микросхемы на основе фотонных процессоров, которые передают данные с помощью света, а не электрических сигналов. Большим преимуществом фотоники является скорость — свет может передавать информацию быстрее, с большей пропускной способностью и с меньшим потреблением энергии, чем электроны. Ожидается, что потребности в обработке данных на основе искусственного интеллекта будет увеличиваться в геометрической прогрессии, и использование фотонных технологий позволит преодолеть аппаратный предел производительности.
Стартапы Lightmatter и Luminous Computing , разрабатывают фотонные микросхемы, оптимизированные для таких задач, как глубокое обучение. На основе такой элементной базы они планируют создать «суперкомпьютеры с искусственным интеллектом», способные обрабатывать особенно сложные алгоритмы, справиться с которым не могут современные суперкомпьютеры.
Защита виртуальных миров
Распространение токсичного контента и поведения распространилась из социальных сетей в новую область: в онлайн-миры. Компании используют ИИ для обнаружения вредоносного поведения в играх и других виртуальных пространствах.
Около 3 миллиардов человек во всем мире играют в видеоигры. К 2025 году аудитория онлайн-игр превысит 1,3 миллиарда человек. От 1% до 10% населения Северной Америки и Европы страдают психологическими игровым расстройством. Все это вызывает опасения, что дети и подростки подвергаются негативному воздействию, в том числе неприемлемого или агрессивного контента.
Выявление языка ненависти в Интернете — не новая проблема. Facebook заявляет, что потратил 13 миллиардов долларов на безопасность за период с 2016 по 2021 год. Проблема токсичного контента быстро распространяется и охватывает виртуальные миры и онлайн игры. Игры могут быстро превратиться в токсичный опыт общения в виде обзывательств, кибербуллинга, грифинга (намеренной помощи команде соперника, чтобы разозлить своих напарников), и преждевременных выходов партнеров из игры из-за недовольства ее ходом, ставящих вашу команду в невыгодное положение. Исследование Anti-Defamation League (ADL) показало, что 74% геймеров страдают от различных форм токсичного поведения. Стартапы, разрабатывающие технологии для борьбы с токсичным поведением используют ИИ. Компания Spectrum Labs утверждает, что ее платформа обработки естественного языка (NLP) облегчает процесс модерации аудио- и текстового контента на 50%, одновременно повышая эффективность обнаружения токсичного поведения в 10 раз. Точно также GGWP вышла на рынок с сервисом обнаружения и мониторинга токсичного контента.
Ведущие технологические компании скупают стартапы разрабатывающие системы модерации контента на основе ИИ. Например, в октябре 2021 года Microsoft приобрела компанию Two Hat, в числе клиентов которой числятся Roblox, Epic Games и Minecraft.
Конечно, невозможно достичь идеальной модерации контента. В стремлении избежать цензуры платформ интернет-сообщество постоянно приспосабливаются. Однако прорывы в таких ключевых областях, как НЛП и классификация на основе изображений указывают на то, что ИИ будет в авангарде войны с токсичным контентом.
Борьба с дипфейками
Распространение технологии дипфейков становится повсеместным. Кандидаты-дипфейки проводят избирательные кампании, а видеоролики, созданные ИИ распространяют дезинформацию о военных действиях. Сфера применения дипфейков расширились от генерации гиперреалистичных изображений до создания голосовых и видео обманов, включая реконструкцию лица, когда одно лицо в видео заменяется другим. Эти подделки, основанные на самообучающихся алгоритмах, со временем становились все реалистичнее и реалистичнее. Огромное количество общедоступных видео и голосовых записей позволяет легко обучать алгоритмы ИИ и создавать дипфейки, особенно это касается знаменитостей. Специалисты утверждают, что отличать лица, объекты и видео, созданные искусственным интеллектом, от реальных будет становиться все труднее.
В 2022 году дипфейки получили распространение в СМИ, особенно в политической сфере. В марте 2022 года The Wall Street Journal сообщил, что Юн Сок Ёль, кандидат на президентских выборах в Южной Корее, использовал дипфейки, чтобы улучшить свой имидж среди молодых избирателей. «Ай Юн», как называлась дипфейковая версия, выглядела более забавно, чем ее реальный аналог.
Помимо поддельных новостей и политической дезинформации, дипфейки также нацелены на корпоративных клиентов и могут стать основным инструментом фишинга и вымогательства среди потребителей.
«Мы наблюдаем, что поддельные медиа становятся все лучше, лучше и лучше, а способность компьютеров определять, что правда, а что подделка, или способность пользователей различать, что правда, а что подделка, быстро стремится к нулю». — заявляет Пол Инглэнд, инженер исследовательской лаборатории Microsoft.
Для того чтобы устранить риск, который представляют для журналистики и демократии синтетические СМИ, вызванные сочетанием новых форм дезинформации с вирусным распространением Microsoft и BBC объединились с Adobe, Arm, Intel и Truepic для создания Коалиции за происхождение и подлинность контента (Coalition for Content Provenance and Authenticity – C2PA). C2PA — это орган по установлению стандартов, который разработает сквозной открытый стандарт и технические спецификации по происхождению контента и аутентификации.
Microsoft также отдельно сотрудничает со стартапом AI Foundation. В 2020 году AI Foundation получила 17 миллионов долларов инвестиций на создание дипфейковых аватаров, а также объявила о запуске совместно с Microsoft платформы для обнаружения дипфейков Reality Defender. Reality Defender сотрудничает, в частности, с Министерством национальной безопасности и Министерством обороны США.
Компания Truepic пошла другим путем и использует криптографию и технологию на основе блокчейна для идентификации фото и видео. Интегрированная технология контролируемого захвата Vision, разработанная Truepic выявляет манипуляциями с фотографиями с помощью комплексного набора тестов. Все изображения, снятые с помощью приложения Vision, имеют проверенные метаданные, считаются неотредактированными и подтверждены как оригиналы. Truepic также работает с Qualcomm над добавлением зашифрованных меток для изображений, снятых смартфонами на базе чипсета Qualcomm. В 2021 году компания привлекла инвестиций на 27 миллионов долларов от Adobe, Microsoft M12, Sony Innovation Fund и других.
В прошлом году исследователи из Meta объявили, что теперь они могут «декомпилировать» изображение дипфейка, то есть не только определить, является ли изображение фальшивым, но и анализировать атрибуты модели ИИ, используемой для создания дипфейка.
Несмотря на то, что технологические компании активно разрабатывают решения для предотвращения растущей угрозы кибербезопасности от дипфейков, последние будут становиться все более продвинутыми и повсеместными, что делает необходимым поиск новых способов их обнаружения и уничтожения.
ИИ в программировании
Есть много областей, где машинное обучение постепенно влияет на процесс производства программного обеспечения. Одним из наиболее важных направлений является синтез программ, в ходе которого программа может быть сгенерирована непосредственно из естественного языка, объяснений или примеров. Здесь одним из самых интересных способов является автоматическое создание графических интерфейсов из эскизов.
Есть несколько областей, в которых методы машинного обучения способны значительно улучшить процесс создания программного обеспечения. Один касается процесса компиляции. В современных компиляторах люди определяют вывод, но компилятор определяет порядок инструкций, а иногда и обширную переработку. В свою очередь это может существенно повлиять на характеристики производительности кода. Типичные оптимизации, которые компиляторы используют для поиска эквивалентных и более эффективных программ, разрабатываются вручную. Но исследователи выявили области, в который ИИ значительно превосходит то, что генерируют традиционные компиляторы.
С другой стороны декомпиляция, или реверс-инжиниринг, является важным этапом во многих процессах обеспечения безопасности и обнаружения вредоносных программ, когда низкоуровневый ассемблерный код переводится на высокоуровневый язык программирования. Ключевым шагом является наполнение получившегося высокоуровневого языка семантикой низкоуровневой программы.
Еще одна область применения ИИ – это тестирование. Хотя оно всегда является скучной и рутинной работой, выявление ошибок и уязвимостей в программных приложениях является необходимым и критическим этапом создания программ. Одним из подходов к их тестированию является нечеткое тестирование, при котором в программу отправляется широкий спектр входных данных с надеждой выявить поведение, приводящее к сбою или другим аномалиям.
ИИ упрощает написание программного кода и делает его более эффективным, помогая не только написанию программ, но и автоматизируя тестирование программного обеспечения. Алгоритмы ИИ способны переводить команды на естественном языке в компьютерный код.
В июне 2021 года GitHub (приобретенная Microsoft в 2018 году) и OpenAI (в котором Microsoft владеет миноритарной долей в размере 1 миллиарда долларов) объединились для запуска GitHub Copilot. Copilot, обученный на общедоступных данных GitHub, преобразует комментарии в код, и может работать с несколькими естественными языками.
Microsoft — не единственная крупная технологическая компания, работающая в этом направлении. В феврале 2022 года компания Google DeepMind выпустила AlphaCode — программы, сгенерированные искусственным интеллектом, которые были протестированы на более сложных задачах программирования. После оценки своего ИИ на недавних соревнованиях, проводимых на Codeforces, DeepMind заявила, что его ИИ работает «примерно на уровне среднего участника».
Что касается стартапов, то они больше сосредоточены на создании систем тестировании программного обеспечения: автоматизация проверок качества и модульных тестов кода. Главные компании в этой области включают Mabl (при поддержке CRV и Google Ventures), Autify (при поддержке Salesforce Ventures) и дочернюю компанию Оксфордского университета Diffblue.
Автоматизированное программирование все еще находится в зачаточном состоянии. Но быстрое развитие этой области и достижения способствуют все более широкому применению программирования на основе команд естественного языка, которое позволяют пользователям, не являющимся техническими специалистами, участвовать в научных проектах, устранять пробелы в навыках и ускорять производственные циклы.
Мультимодальный ИИ
Мультимодальный ИИ — это новая парадигма, в которой различные типы данных (изображение, текст, речь, числовые данные) объединяются с несколькими алгоритмами обработки ИИ для достижения более эффективных результатов. Это интегрированная модель ИИ, способная понимать концепции из нескольких модальностей, таких как видео, текст и 2D-изображения. Ее применение позволяет улучшать создание контента и поиск. Мультимодальный ИИ часто превосходит одномодальный ИИ во многих задачах.
Сегодня модель ИИ, обученную на видео данных, можно использовать для прогнозирования видео контента, модель, обученную на тексте, можно использовать для прогнозирования текста и так далее. Чтобы выйти за рамки конкретных типов медиа, мультимодальные исследования ИИ стремятся быть более целостными, используя для прогнозирования единую модель ИИ для концептуализации информации из нескольких типов данных, таких как текст, 2D-изображения и видео.
Например, в начале 2021 года OpenAI обучил модель ИИ под названием DALL-E генерировать изображения на основе текстовой фразы. В январе 2022 года OpenAI выпустила DALLE-2, который улучшает разрешение выходного изображения исходной модели в 4 раза.
В мае 2022 года Google запустил Imagen, проект преобразования текста в изображение, который, как сообщается, превосходит модель OpenAI с точки зрения качества генерируемых изображений, а также соответствия между вводом (текстом) и выводом (изображение, сгенерированное ИИ).
Ранее в этом году Meta опубликовала статью под названием “Omnivore: A Single Model for Many Visual Modalities.”В документе описывается модель ИИ, которая после обучения распознаванию 2D-изображений тыквы может также распознавать тыквы на видео или 3D-изображениях, не требуя дополнительного обучения для двух последних типов медиа.
Мультимодальный ИИ уже выходит за рамки академических лабораторий. Google, например, использует мультимодальный ИИ для улучшения поиска. Так в будущем пользователь сможет сфотографировать свои горные ботинки и спросить в поисковой строке «Могу ли я использовать их для похода на гору Фудзи?» Поисковая система распознает изображение, извлечет из Интернета текстовую информацию о горе Фудзи, изображения и видео данные, обработает полученную информацию и даст соответствующий ответ.
В эту область также приходят новые стартапы, не обладающие мощными ресурсами информационных гигантов. Так, в марте 2022 года компания Twelve Labs привлекла 5 миллионов долларов начального финансирования. Компания разрабатывает ИИ для понимания контекста как визуальных, так и аудио данных для индексации видео для эффективного поиска.
Мультимодальные исследования ИИ готовы выйти за рамки исследовательских лабораторий и обещают открыть новую создания контента и поиска.
Сквозное машинное обучение
Поскольку коммерческие приложения ИИ быстро масштабируются, предприятия стремятся пересмотреть существующие методы управления данными, чтобы сократить время и повысить эффективность их обработки. Это довольно сложная задача. Переход проекта от необработанных данных к готовому результату, произведенному искусственным интеллектом — это многоэтапный процесс, от поиска данных и проверки качества данных до разработки моделей и мониторинга производительности после окончания процесса.
На рынке MLOP (Machine Learning Operations) появились сотни поставщиков, которые занимаются различными частями процесса. Сквозное обучение в контексте ИИ и машинного обучения — это метод, при котором модель изучает все этапы между начальной фазой ввода данных и конечным результатом вывода. Это процесс глубокого обучения, в котором все части модели обучаются одновременно, а не последовательно. Хорошим примером такого комплексного решения является создание письменной расшифровки (вывод) из записанного аудиоклипа (вход). Здесь модель проходит все промежуточные шаги обработки данных, то есть она может обрабатывать полную последовательность необходимых шагов и задач.
Поставщики комплексного машинного обучения объединяют несколько этапов процесса циклом обработки данных ИИ в один продукт в форме платформ SaaS. Услуги таких платформ соответствуют потребностям предприятий, которым нужно быстро и эффективно создавать свои собственные системы на основе ИИ.
В мае 2021 Google открыла платформу для разработки приложений на основе искусственного интеллекта под названием Vertex AI. Компания продвигает платформу как универсальный инструмент для специалистов по работе с данными, у которых нет опыта программирования и машинного обучения.
Другая компания, DataRobot, уже несколько лет активно расширяет возможности своей платформы посредством слияний и поглощений. За период 2019-2021 DataRobot совершила 5 приобретений, что позволяет ей претендовать на доминирующую долю рынка корпоративных решений в области ИИ.
Важным трендом рынка являются разработки решений с функциями, которые не требуют глубоких прикладных знаний. В частности широко используются функции plug-and-play, которые позволяют преодолеть нехватку знаний и квалификации в области ИИ.
Еще одно быстро развивающееся направление — это «ИИ для ИИ» — использование ИИ для автоматизации различных аспектов самого процесса разработки ИИ. В частности речь идет таких функциях как проверка качества данных или разработки составных частей информационных моделей.
Нет сомнений, что область разработки ИИ и крупные технологические компании и стартапы продолжат предлагать все более широкий спектр услуг ИИ, активно конкурируя за долю на этом быстро растущем рынке.