главноеновостиэкономикаэкономика данных

ИИ: Фильтруй данные!

Как сделать «лимонад» из миллиона данных, собираемых корпорациями

После массового внедрения технологий ИИ на предприятиях, топ-менеджеры столкнулись с необходимостью формировать структурированные данные. Без формализированных данных любой анализ рискует вылиться в профанацию и дезинформацию. При этом, нельзя забывать про безопасность передаваемых данных. О том, как планируется решать эти проблемы, рассказали представители Минцифры и управленцы госкорпораций на пленарном заседании Открытой конференции Института системного программирования РАН (ИСП РАН), посвященной 30-летнему юбилею института.

Академия криптографии поборется с регуляторными барьерами

В ходе пленарной сессии Открытой конференции к 30-летия ИСП РАН заместитель министра цифрового развития России Александр Шойтов подчеркнул важность балансировки между обеспечением безопасности и продвижением в области искусственного интеллекта (ИИ). По словам Шойтова, необходимо выстраивать работу так, чтобы не тормозить прогресс, а, наоборот, способствовать развитию технологий, которые являются ключевыми для будущего.

Александр Шойтов напомнил о создании консорциума, который объединяет разработчиков ИИ, специалистов в области информационной безопасности, научное сообщество и федеральные органы власти. Эта инициатива направлена на создание единой платформы для сотрудничества и поиска технических решений, которые будут удобными и доступными для внедрения.

Важным шагом в этом направлении стало создание АНО «Национальный технологический центр цифровой криптографии», которая начала свою работу в 2022 году. Основные достижения этой структуры включают разработку суперсистемы противодействия вредоносному программному обеспечению, создание центра обезличивания персональных данных и унификацию средств графической защиты информации.

Представитель Минцифры отметил, что несмотря на достижения в области криптографической защиты, необходимо продолжать ускорять внедрение ИИ. Он подчеркнул, что многие технологии находятся на ранних стадиях развития и требуется больше исследований для понимания их возможностей и рисков. В этом контексте особое внимание уделяется разработке адекватных мер для обеспечения доверия к информационной безопасности.

С 2019 года в Академии криптографии проводятся исследования, направленные на выявление рисков и видов атак на системы ИИ. Созданный опорный центр доверенного ИИ работает над разработкой безопасных технологий, чтобы избежать жестких нормативных ограничений, которые могут замедлить развитие сферы.

Таким образом, мы стремимся создать безопасную среду для развития искусственного интеллекта, что является важным шагом к интеграции новых технологий в различные сферы жизни, пояснил замминистра. Он поздравил директора ИСП РАН Арутюна Аветисяна, который выступал модератором встречи, с юбилеем института и выразил уверенность в дальнейшем сотрудничестве.

С ИИ без эйфории

Подразделение компании «Транснефть», отвечающее за разработку технологий искусственного интеллекта, активно использует большие языковые модели и нейросети для оптимизации расчётов. Как сообщил на конференции вице-президент ПАО «Транснефть» Андрей Бадалов, применение этих технологий охватывает широкий спектр задач, включая видеоаналитику и обработку пространственных данных.

«Мы обслуживаем гигантскую систему, охватывающую всю территорию Российской Федерации, и регулярно проводим обследования объектов с использованием беспилотных аппаратов», — отметил Бадалов. Он подчеркнул, что одним из ключевых направлений является распознавание событий на местности, включая выявление возможных утечек и других нежелательных ситуаций.

Кроме того, Андрей Бадалов рассказал о единой лабораторной информационной системе, которая была представлена на недавнем заседании с председателем Правительства РФ Михаилом Мишустиным. Эта внутренняя разработка «Транснефти» направлена на автоматизацию работы более 100 лабораторий, проводящих анализы различных параметров нефти и нефтепродуктов. Система функционирует как интернет вещей, взаимодействуя напрямую с приборами и генерируя большой объём данных.

Однако часть оборудования остаётся вне системы из-за устаревания технологий, что приводит к необходимости ручной обработки данных. В этой связи искусственный интеллект используется для анализа больших данных и выявления возможных ошибок со стороны персонала при эксплуатации системы, уточнил эксперт.

«В нашей организации мы понимаем, что эйфория, связанная с возможностями ИИ, иногда может быть переоценена. Ключевым фактором успешного внедрения ИИ является качество данных», — сказал Андрей Бадалов.

Он пояснил, что на данный момент «Транснефть» эксплуатирует около 100 корпоративных систем и порядка 1000 локальных информационных систем. Это создает гигантский объем данных, который был собран в разное время и в разных условиях. Проблемы консистентности и совместимости данных становятся все более актуальными, и именно их решение компания рассматривает как приоритетное направление, сказал представитель «Транснефти».

Важным шагом на этом пути является создание единой модели данных, которая позволит интегрировать разрозненные источники информации.

«Мы применяем различные технологии, включая онтологическое моделирование, которое помогает формализовать объекты нашей деятельности и описывать производственные процессы на понятных языках. Это системный подход к разработке информационных систем, который обеспечивает качественную работу ИИ и эффективную архитектуру», — сообщил топ-менеджер «Транснефть». Поэтому успешное использование ИИ в компании зависит не только от технологий, но и от грамотного управления данными и системной архитектуры.

«Для организаций, работающих в сфере критической информационной инфраструктуры (КИИ), передача реальных данных представляет собой значительные риски. Поэтому многие компании предпочитают обрабатывать данные внутри своих систем, что, с одной стороны, обеспечивает безопасность, а с другой — создает определенные опасности», — сказал Андрей Бадалов.

Одной из основных проблем является использование моделей искусственного интеллекта, обученных на неадекватных выборках. На первый взгляд, такие модели могут показаться подходящими для решения задач, но по мере углубления в анализ становится очевидным, что качество выборок оставляет желать лучшего. Это подчеркивает важность не только качества самих данных, но и процесса их обучения, уточнил эксперт.

Кроме того, применение ИИ в области информбезопасности открывает новые горизонты. В настоящее время технологии позволяют анализировать огромные объемы событий, поступающих от средств информационной безопасности. Это позволяет более эффективно выявлять угрозы и реагировать на них в реальном времени.

Таким образом, обезличивание данных и качество обучающих выборок остаются важнейшими аспектами для обеспечения надежности и безопасности информационных систем.

Необходимо прописать в законе базовые понятия и единый принцип управления данными, на который могли ориентироваться различные отраслевые системы, считает заместитель генерального директора по науке «СиСофт Девелопмент» Михаил Бочаров. В частности: нужна четкая терминологическая база основных понятий, таких как данные и информация, машиночитаемость и машинопонимаемость данных, отметил эксперт.

Объекты с длинным жизненным циклом требуют дополнительных подходов к внедрению технологии распознавания силами ИИ, сказал директор по информационной инфраструктуре госкорпорации «Росатом» Евгений Абакумов.

Например, значительное количество исторической документации «Росатома», находящейся в формате PDF или даже на бумаге, содержит ценные данные, которые могут помочь в понимании сложных промышленных объектов. «Этот пока что неструктурированный контент может предоставить дополнительные знания о таких объектах, особенно учитывая их долгий срок эксплуатации», — подчеркнул он.

Однако использование ИИ в этой области сопряжено с рядом вопросов. «Как именно технологии будут функционировать на протяжении 50 лет эксплуатации атомных объектов?», — озвучил проблему ИТ-директор госкорпорации. Этот аспект остается неясным, особенно с учетом стремительного развития вычислительной инфраструктуры в данной области.

Евгений Абакумов также отметил необходимость разработки масштабной научной программы, направленной на исследование и внедрение технологий ИИ в атомной энергетике. Он уверен, что это станет важным шагом в обеспечении безопасности и эффективности работы атомных объектов.

Энергетика на миллиарды гигабайт данных

Отрасль топливно-энергетического комплекса также внедряет технологий ИИ и работает с гигантскими объемами данных.

На пленарном заседании заместитель министра энергетики РФ Эдуард Шереметцев сообщил, что около 40% компаний топливно-энергетического комплекса (ТЭК) уже применяют технологии ИИ. По прогнозам, к 2026 году 18% компаний ТЭК планируют их внедрить. Эти цифры подтверждают растущую цифровизацию отрасли: согласно рейтингу Аналитического центра Правительства РФ, ТЭК занимает 3 место среди 14 ключевых секторов экономики страны по уровню цифровизации.

В настоящее время реализуется порядка 300 проектов, большинство из которых связаны с математическим моделированием и управлением информационными системами финансово-хозяйственной деятельности. Среди новшеств — использование сетевых агентов и технологии распознавания голоса и изображений. Одним из значимых достижений является создание технологических систем, которые помогают оптимизировать процессы в отрасли.

Для безопасного тестирования ИИ-решений разрабатываются новые полигоны. В частности, часть процессов отрабатывается на полигоне в Санкт-Петербурге. Однако одной из главных проблем остается обработка огромного объема данных: по примерным оценкам, ТЭК генерирует около 3000 петабайт или 3 млрд гигабайт информации в сутки. Для сравнения, социальные сети генерируют значительно меньше по объему данных.

Кроме того, замминистра отметил сложности, связанные с передачей данных в такой обширной стране, как Россия. Необходимость безопасной и качественной передачи информации становится приоритетом, так как даже незначительные ошибки в данных могут привести к серьезным последствиям. Таким образом, качественный сбор и передача данных остаются ключевыми задачами для успешной интеграции ИИ в ТЭК.

*******

Открытая конференция ИСП РАН собрала 1500 участников в московском кластере «Ломоносов», ещё 500 человек приняли участие онлайн. Организаторами выступили ИСП РАН, РАН, Национальный технологический центр цифровой криптографии, Академия криптографии РФ, ФПИ, а также международные ассоциации IEEE и IEEE Computer Society. В этом году на конференции были представлены 130 докладов и более 50 выставочных стендов института и компаний-партнёров.

Автор: Иван Измайлов

Фото: PRO Шеринг