Контакты

Хранение и обработка данных в стиле SAP: BW или HANA?

CNews - 18 декабря 2012 - Иван Копть и Алла Ленская, EPAM

Современные компании тонут в море информации, утверждают исследования экспертов в области ИТ. Объемы данных растут, а сроки, которые есть у руководителя на принятие взвешенного управленческого решения, уменьшаются. Счет идет не на дни и недели, как раньше, а на часы и минуты. Как найти точки сопряжения этих тенденций, движущихся по расходящимся курсам? Один из способов – построить аналитическую систему, чтобы быстро получать агрегированные данные из различных ИТ-приложений.

Если за основу для создания такой аналитической системы взять технологии компании SAP, решения которой в корпоративном сегменте для многих отраслей стали стандартом де-факто, то с точки зрения скорости получения данных, соотношения цена/качество и общей стоимости владения наиболее интересными можно назвать два варианта: SAP BW и HANA.

Актуальная классика: SAP BW и BI

Один из них уже есть в практике достаточно многих российских предприятий. Он связан с построением хранилища данных на основе платформы SAP Business Warehouse (BW) и внедрением поверх него инструментов Business Intelligence. Опыт подобных проектов, в том числе реализованных компанией EPAM Systems, доказывает, что таким образом можно серьезно сократить сроки получения необходимой информации. Благодаря чему удается это сделать?

Закупки, продажи, производство, логистика, обслуживание клиентов – каждая из этих сфер деятельности современного предприятия ежеминутно генерирует поток данных. Они распределяются по широкому спектру различных информационных систем – это учетные приложения, промышленные ERP-системы, логистические и биллинговые решения и т.д. С архитектурной точки зрения многие из них, – к примеру, ERP-системы или банковские автоматизированные системы, – работают на реляционных базах данных, в основе которых лежат принципы онлайновой транзакционной обработки (OLTP). Подобная структура позволяет обеспечить высокую производительность при регистрации данных. Каждый автоматизированный бизнес-процесс оставляет свой «след» в одном или нескольких приложениях компании, и объемы накопленной информации постоянно растут.

Для разгрузки учетных систем и высокой скорости получения аналитических данных часть информации можно переместить в другую структуру – хранилище данных. Оно спроектировано уже по совершенно иным архитектурным принципам – для онлайновой аналитической обработки (OLAP). Формирование аналитических данных в разных разрезах, drill-down и slice and dice обеспечиваются надстройкой над хранилищем данных в виде BI-инструментов (рис.1). Помимо ERP-системы, к хранилищу можно подключить все необходимые информационные активы организации, превратив его в полноценное корпоративное хранилище данных.

Рис.1 Взаимодействие систем при использовании хранилища данных на основе SAP BW

Хранилища данных сейчас используются достаточно широко, но на определенном этапе некоторые компании попадают в ситуацию, когда возможности имеющихся систем уже не позволяют получать качественную аналитическую информацию и необходимую скорость для принятия управленческих решений. Почему так происходит? Проблема заключается в том, что для переноса данных в классическое хранилище используется процесс экстракции, трансформации и загрузки (ETL). При очень больших массивах данных его выполнение потребует достаточно длительного времени, так что начать работать с актуальной аналитикой через считанные минуты после внесения изменений в учетную систему бизнес-пользователи не смогут. Кроме того, возникают вопросы и относительно полноты аналитических данных.

Нередко в хранилище загружаются только агрегированные данные, без возможности их рассмотрения на более детальном уровне. Другой вид - информация ограничена строго определенным временным горизонтом, без возможности увидеть всю историю конкретного показателя. В большинстве случаев причины таких ограничений чисто технические и связаны с тем, что традиционные базы данных уже не могут с приемлемой скоростью обработать накопленные объемы информации. Как следствие, пользователи при выполнении своих BI-запросов пользуются анализом только усеченных – с точки зрения времени или детализации – данных.

Для многих бизнес-задач тех скорости и качества, которые может обеспечить связка «хранилище данных – BI-инструменты», бывает достаточно. В качестве примера можно привести процессы формирования обязательной отчетности, в некоторых случаях - бюджетирования и т. д. Однако есть задачи, для которых требуется получать информацию практически в режиме реального времени. В случае с производственными предприятиями примерами могут служить анализ загрузки производственных мощностей, анализ эксплуатационных характеристик оборудования предприятия и простоев при внеплановых ремонтах, анализ движения технико-материальных ценностей, состояние склада. Для компаний ритейл-сектора и сферы услуг это, к примеру, моментальный анализ рентабельности различных сегментов бизнеса, перерасчет цен в условиях быстро меняющейся ситуации на рынке, оперативное планирование загрузки персонала в офисах и торговых отделениях и т. д. Для финансовых организаций – анализ и управление в реальном времени потоком денежных средств и управление ликвидностью, анализ открытых валютных позиций в банках и др. В этом случае скорость, которую обеспечивает применение хранилища данных, может оказаться слишком низкой, что приведет к росту затрат или потерям компании из-за несвоевременного принятия решений.

Технологичный авангард: SAP HANA

Для выполнения задач, где от руководителей требуется более быстрая реакция на ситуацию на предприятии или в бизнесе в целом, SAP предлагает использовать платформу SAP HANA (также в сочетании с BI-средствами). В ее основе лежит использование построенной на принципах in-memory гибридной базы данных. Это дает возможность сохранять информацию в базе данных как в традиционной построчной модели, так и в поколоночной. Поколоночное хранение обеспечивает высокую скорость агрегирования показателей и использование внутренней компрессии данных, что также положительно влияет на потребление доступной памяти. Встроенный OLAP-процессор агрегирует большие объемы данных на лету, без необходимости построения, заполнения, хранения и использования промежуточных агрегатов. При этом важно отметить, что есть возможность детализировать полученную аналитическую информацию до уровня исходных данных. Кроме того, при работе платформы максимально используются возможности современных процессоров для распараллеливания операций по обработке данных. В результате удается быстро получать нужную аналитическую информацию.

Данные для анализа в SAP HANA также могут поступать из базы данных, находящейся под управлением ERP-системы. Отличие от использования хранилища на основе SAP BW – отсутствие процессов ETL. Загрузка информации осуществляется с помощью технологии репликации данных, которая позволяет переносить все изменения, которые произошли внутри ERP-системы, в базу данных внутри SAP HANA в режиме, максимально приближенном к real-time. В результате пользователям не нужно ожидать очередного (как правило, ежесуточного) срабатывания ETL-процесса или работать с устаревшими данными. Результаты всех изменений данных, происходящих в ERP, оперативно доступны через привычные интерфейсы бизнес-аналитики SAP BI (рис. 2).

Рис.2 Взаимодействие систем при обработке данных SAP ERP на основе комплекса SAP HANA

Как и в случае с традиционным хранилищем данных, в качестве источников информации SAP HANA может использовать не только ERP-систему, но и другие приложения. В этом случае для загрузки данных используются средства SAP BusinessObjects Data Services (рис.3).

Рис.3 Взаимодействие систем при обработке данных из различных источников на основе комплекса SAP HANA


В такой конфигурации скорость обработки запросов даже при анализе больших объемов данных остается высокой, хотя о работе в режиме реального времени (с точки зрения актуальности данных) речь уже не идет.

Баланс стоимости, потребностей и перспектив

Помимо нацеленности на разные задачи, платформа SAP HANA отличается от хранилища данных на основе SAP BW более высокой начальной стоимостью. Хотя здесь, безусловно, многое зависит от ландшафта и особенностей конкретного предприятия. Частично снизить затраты времени и ресурсов на развертывание SAP HANA помогает то, что наиболее востребованный функционал (например, ускоренная подготовка отчетности по анализу прибыльности) поставляется в виде пакетированных решений. Практика EPAM Systems показывает, что в этом случае удается свести к минимуму участие бизнес-консультантов в проекте внедрения. В других случаях (например, если компании требуется функциональность для получения оперативной отчетности из ERP-системы) потребуются ресурсы на адаптацию поставляемого набора панелей управления и отчетов к реальным бизнес-процессам.

Ряд технологий, реализованных в SAP HANA, позволяет в дальнейшем расширить применение этого комплекса и тем самым компенсировать более ранние инвестиции. К примеру, одна из перспектив – это использование платформы как базы данных для ERP-системы. Таким образом, SAP HANA станет местом хранения как аналитической, так и транзакционной информации.

Сейчас есть проекты, в которых SAP HANA выступает в качестве базы данных и для SAP BW. Такой подход помогает сохранить выстроенную инфраструктуру компании, сделанные ранее инвестиции и значительно повысить скорость работы SAP BW. Кроме того, у компании появляется возможность постепенно технологически развивать текущий ландшафт, но при этом существенно экономить финансовые средства.

Важная особенность платформы - функциональность Calculation Engine. Она позволяет выполнять ресурсоемкие операции над данными непосредственно в оперативной памяти и значительно сокращать обмен информацией между базой данных и приложениями. В результате SAP HANA может использоваться и как платформа для разработки in-memory-приложений, которые будут полностью работать в оперативной памяти. Для определения закономерностей, прогнозирования ситуации и других видов предиктивного анализа Calculation Engine может использовать собственную библиотеку функций статистической обработки данных. Также для этих целей имеется возможность задействовать всю мощь и широкий спектр библиотек открытого языка R. Тем самым аналитика переходит на новый уровень – от констатации фактов к выявлению закономерностей и предвидению ситуации.

Стоит отметить, что, в отличие от хранилищ данных, в состав SAP HANA входит не только программное обеспечение, но и аппаратная часть – комплекс blade-серверов на базе архитектуры Intel Nehalem-EX CPU. Такой подход также позволяет экономить ресурсы на интеграцию комплекса в уже существующий на предприятии ландшафт.

Решение о выборе варианта построения аналитической системы зависит от задач и особенностей каждой конкретной компании. Для кого-то, возможно, окажется вполне достаточным функциональности, качества и скорости, которые обеспечивает SAP BW. Для кого-то условия конкуренции уже сейчас становятся настолько тяжелыми, что нужна скорость и перспективность SAP HANA. В любом случае реализация такого проекта поможет более эффективно использовать накопленные и накапливаемые объемы данных, обеспечит требуемые сроки принятия управленческих решений и будет залогом успешности бизнеса.

Оригинал публикации