SAP BI SAP BI (Business Intelligence) предлагает ETL-модуль, известный как SAP Data Services. Этот модуль обеспечивает сбор данных из различных источников, их преобразование и загрузку в хранилище данных SAP BI.
Модуль SAP Data Services может выполнять извлечение данных с использованием SQL-запросов, инкрементальное обновление или полное извлечение данных в зависимости от настроек. После трансформации, которая может включать очистку данных, фильтрацию, преобразование типов, объединение или разделение столбцов, данные загружаются в хранилище данных SAP BI. Данные могут быть загружены как полностью, так и инкрементально с использованием ключей и индексов для оптимизации процесса загрузки.
ETL-модуль SAP Data Services предоставляет возможности для планирования и автоматического обновления данных, управления метаданными, мониторинга и управления качеством данных, преобразования и интеграции данных из различных источников.
Общий принцип работы ETL-модуля SAP BI заключается в извлечении, преобразовании и загрузке данных из источников в хранилище данных SAP BI, что обеспечивает основу для анализа и отчетности в SAP BI.
SAP BI делит метаданные на так называемые юниверсы. Они могут быть полностью независимыми и использовать существенно разные настройки (например, для генерации SQL).
Oracle BI ETL-модуль Oracle BI (Business Intelligence) называется Oracle Data Integrator (ODI). Центральной составляющей системы является единая модель данных, также известная как репозиторий. Она включает в себя описание логической модели бизнес-области и связь с физическими источниками данных. Модель состоит из трех слоев: презентационного, бизнес-слоя и физического.
Бизнес-слой (сервер BI) содержит логическую модель, которая понятна конечным пользователям. Он описывает многомерную модель с фактами и измерениями, а также связывает логические атрибуты с физическими источниками данных.
Сервер презентаций (Presentation Server) позволяет разбить логическую модель на предметные области и контролирует доступ пользователей к разным показателям и атрибутам.
Физический слой содержит описание физических источников данных, таких как таблицы, поля, ключи и кубы данных.
Создание модели данных (репозитория) выполняется через специальное программное средство Oracle BI Administration Tool разработчиком. OBIEE имеет некоторые средства для совместной разработки репозиториев — есть возможность их слияния из разных версий и возможность хранения репозитория в виде набора xml файлов.
Когда пользователь открывает отчет, сервер презентаций (Presentation Server) генерирует запрос на языке Logical SQL к серверу BI. Сервер BI разбирает запрос и переводит его в запросы к источникам данных на их «родных» языках — SQL, MDX и т. п. После получения данных от источников сервер объединяет их, проводит различные действия над данными (например, вычисляет агрегаты, если это необходимо) и возвращает результат серверу презентаций. Сервер презентаций, в свою очередь, отрисовывает полученные данные в web-интерфейсе или генерирует статичный отчет.
Есть свидетельства, что OBIEE не всегда правильно работает со схемами типа «снежинка» в модели данных. Это значит, что не всегда генерируется правильный SQL-запрос из отчета. По возможности нужно переводить такую схему в «звезду» на уровне бизнес-слоя.
OBIEE может работать только с одним хранилищем метаданных одновременно.
IBM Cognos IBM Cognos предоставляет возможности ETL (извлечение, преобразование и загрузка) данных через несколько компонентов и инструментов, включая IBM Cognos Data Manager и IBM Cognos Framework Manager.
- IBM Cognos Data Manager — модуль, предназначенный для создания и управления процессами ETL, обеспечивающий возможности для подключения к различным источникам данных. IBM Cognos Data Manager предоставляет графический интерфейс для создания процессов ETL с использованием режима drag-n-drop и настройку различных преобразований, фильтров, агрегаций и других операций для подготовки данных для загрузки;
- IBM Cognos Framework Manager: Это инструмент для моделирования метаданных и создания моделей данных для анализа и отчетности в IBM Cognos. Он не является строго ETL-модулем, но он позволяет проводить настройку подключений к источникам данных, определять отношения иерархий, создавать калькулируемых элементов и т. д., что может включать в себя некоторые задачи ETL.
IBM Cognos может экспортировать пакеты из разных моделей Framework Manager, но вы должны помнить о том, что если вы потеряете модель Framework Manager, используемую для экспорта пакета, вы не сможете изменить соответствующие пакеты.
Alpha BI
Конструктор логической модели данных в Alpha BI позволяет работать с плоскими и многомерными объектами, выстраивать бизнес показатели и KPI поверх физической модели данных и поддерживать единую политику безопасности для всей системы.
Alpha BI оснащена мощным самостоятельным ETL-процессором, который извлекает и преобразует данные, приводит их к необходимому формату в соответствии с заданными правилами и выгружает данные в другие базы данных.
ETL-процессор Alpha BI поддерживает следующие функции:
- Настройка алгоритмов обработки данных с помощью дерева блоков обработчиков;
- Графическое отображение структуры алгоритма;
- Подсветка совместимых блоков при создании процессов ETL;
- Настройка периодичности обработки данных с указанием даты начала и конца выполнения алгоритма, а также периодичности его запуска;
- Информирование администратора о результатах выполнения алгоритмов, включая трассировку передачи данных между блоками-обработчиками, фиксацию времени работы каждого блока и указание ошибки в случае неудачного завершения алгоритма;
- Предварительный просмотр результатов работы каждого блока-обработчика с возможностью генерации внешних ссылок;
- Автоматическое заполнение полей структуры данных.
Здесь хочется остановиться на важной особенности Alpha BI: в системе реализован не только традиционный ETL (извлечение, преобразование, загрузка), но и инновационный ELT (извлечение, загрузка, преобразование) подход к обработке данных. Различия между этими подходами заключается в том, что после извлечения из источника в случае ELT необработанные данные загружаются в систему в потоковом режиме, и этап трансформации происходит непосредственно в момент выполнения запроса. Таким образом существенно экономится время, необходимое для получения соответствующей информации.