С 2000 по 2010 г. параллельно шли следующие процессы – появились OLAP-технологии, которые позволяли вести аналитическую обработку данных в режиме реального времени. А с другой стороны, стали возникать технологии MDM (Master Data Management), позволявшие управлять данными (прежде всего начинать вытаскивать различные реестры и регистры в систему управления нормативно-справочной информацией). Они начали отбирать эти функции у приложений, и это, наверное, и стало началом интеграции данных.
После этого появилось такое понятие, как корпоративное хранилище данных – Data Warehouse, куда складывались прежде всего всевозможные нужные агрегаторы, которые были доступны разным приложениям. И эта практика стала настолько удобной и общепринятой, что после этого интеграционные шины приложений просто тихо «умерли». Аналитический слой начал брать на себя все больше и больше, он стал ключевым инструментом интеграции. Он начал брать типовые аналитические задачи моделирования, прогнозирования, аналитические сервисы. Стала увеличиваться и часть MDM (продукты, связанные с Active Template Library, с нормализацией, дубликацией и т. д.).
На все это в районе 2000 г. наложился еще один фактор, связанный с бумом Big Data. В корпоративное хранилище (я позволю себе назвать его за его огромные размеры экза-хранилищем) стало поступать бесконечное количество оцифрованных неструктурированных данных: видео, голос, тексты, телеметрия и т. п. И все эти приложения – и аналитические, и транзакционные – фактически стали интерактивными. Центром интеграции стало экза-хранилище, этот огромный Data Warehouse.
Одновременно возникла совершенная новая задача, которой раньше не было. Надо сказать, что эта задача в подавляющем большинстве компаний только начинает решаться. Речь идет об операционном процессе управления данными как корпоративным активом. Структуры, которая этим системно занималась бы, практически нет ни в одной российской компании, а в западных они активно начинают появляться.
Между тем существуют очень серьезные вопросы: например, как методологически управлять жизненным циклом данных (это большая сложная тема и в целом не айтишная). Есть вопрос, каким образом держать и поддерживать корпоративную модель данных, потому что без нее эти данные не представляют ценности (ты должен понимать, что, где и в какой момент ты можешь взять, и, самое главное, не просто понимать самому, а дать возможность понимать это бизнесу, который этим пользуется).
Если представить функциональную архитектуру типового экза-хранилища, то можно выделить четыре больших слоя. Это все, что связано с аналитическими сервисами; огромное количество всего, что связано с оцифровкой данных; огромный слой всего, что связано с хранением, и, наконец, вычислительная инфраструктура, «железо». Все это строится на различных специализированных (в зависимости от того, каким образом эти данные обрабатываются) сложных архитектурах.
Все это не только существует само по себе, а еще и взаимодействует во многих других плоскостях и измерениях, связанных с мобильностью, облаками, SaaS, технологическими вещами типа in-memory analytics и т. д.
Если ставить себе задачу сегодня построить такое «правильное» экза-хранилище, то обнаруживается, что количество платформ, продуктов, предназначенных для интеграции данных, сегодня измеряется сотнями. При этом никакую из платформ нельзя просто взять как типовой кирпичик и положить в какое-то место в архитектуре экза-хранилища. Нет, каждая из них претендует на то, чтобы занять в нем как можно больше места. А с другой стороны, все разработчики стараются сосредоточиться на какой-то очень узкой зоне, где они будут чемпионами. В результате компания, пытающаяся построить для себя оптимальную современную IT-архитектуру, получает задачу сложить такой трехмерный паззл – есть набор из этих платформ, из которых надо каким-то чудесным образом сложить нормализованное хранилище. Это очень сложно – поддерживать такое огромное количество платформ: они конфликтуют друг с другом, они конкурируют.
В результате мы пришли к тому, от чего уходили, – к тому, что интеграция переместилась на другой уровень: не на уровень интеграции приложения, а на уровень интеграции всех этих данных в огромных Data Warehouse, которые сегодня и есть ключевая зона сложной технологической интеграции.
Мы живем в эпоху крайне фрагментированного продуктового ландшафта – уже далеко в прошлом те времена, когда корпорации опирались только на два-три больших бренда. Раньше, если говорили про обработку данных, брали Microsoft, Oracle, иногда db2. Сегодня количество продуктов, которые специализируются на интеграции данных, измеряется сотнями – достаточно взглянуть на аналитические отчеты по рынку Gartner или IDC.
слайд 2
Эффективное использование IT для развития бизнеса является сегодня одним из ключевых факторов конкуретноспособности компаний.Лозунг «данные — это актив» сейчас звучит у многих, но реально превратить данные в финансовую ценность удается, мягко говоря, не всем. И те компании, которым удастся это сделать, во многом преуспеют.