Think Big расширяет возможности построения «озер данных» с помощью технологии Apache Spark

Цифровизация Big Data Облака Открытое ПО
, Текст: Татьяна Короткова

Компания Think Big — международная консультационная компания, входящая в корпорацию Teradata, обладающая опытом внедрения Apache Spark и других технологий для работы с большими данными — расширяет свои предложения для «озера данных» и управляемых услуг, используя Apache Spark. Среда Spark представляет собой кластерную вычислительную платформу с открытым исходным кодом, которая применяется для разработки рекомендаций по использованию продукта, прогнозной аналитики, анализа данных, поступающих от датчиков, анализа графов и т.д., сообщили CNews в Teradata.

Как отметили в компании, сегодня потребители могут использовать «озеро данных» с помощью технологии Apache Spark в «облаке», в общих «стандартных» средах Hadoop или в ПАК Teradata’s Hadoop Appliance — готовой к работе корпоративной платформе, предварительно сконфигурированной и оптимизированной для работы с потоками корпоративных больших данных.

«Многие организации экспериментируют с платформой Apache Spark, рассчитывая на ее эффективное использование в отношении потоков данных, запросов и аналитики, часто в сочетании с “озерами данных”, — отметил Филипп Рассом (Philip Russom), руководитель отдела исследований управления базами данных Института хранилищ данных. — Однако пользователи быстро осознают, что платформу Spark не так просто использовать, и что “озера данных” требуют больше времени для планирования и проектирования, чем они рассчитывали. В такой ситуации пользователям необходимо обратиться за помощью к консультантам и поставщикам управляемых услуг, у которых есть опыт успешной работы с платформой Apache Spark и “озерами данных” в различных условиях. Компания Think Big обладает таким опытом».

Think Big создает тиражируемые пакеты услуг для развертывания среды Spark в качестве механизма выполнения для своих «озер данных» и управляемых услуг. При участии своего отдела обучения — Академии компании Think Big — консалтинговая компания также организовала серию новых обучающих тренингов для корпоративных клиентов о среде Spark. По информации Teradata, эти тренинги проводятся опытными инструкторами, они помогают руководителям, разработчикам и администраторам освоить работу в среде Spark и с ее разнообразными модулями, например, машинное обучение, графы, потоки данных и запросы.

Кроме этого, отдел обработки и анализа данных Think Big предоставляет бесплатные подпрограммы для распределенного группирования K-Modes на основе интерфейса программирования приложений (ИПП) Python среды Spark. Данные программы улучшают объединение в группы качественных данных для сегментации клиентов и анализа оттока клиентов. Этот код будет доступен вместе с другими бесплатными приложениями Think Big на странице GitHub.

«Think Big быстро расширяет свою консультационную деятельность из Америки по всей Европе и Китаю благодаря тому, что существует потребность в знаниях, опыте и методиках, способных помочь компаниям создавать “озеро данных” с помощью правильного первоначального применения среды Spark и платформы Hadoop, — утверждает Рон Бодкин (Ron Bodkin), президент компании Think Big. — Развертывание среды Spark должно стать частью информационной и аналитической стратегии. Мы знаем на основании нашего опыта, какие сценарии использования являются уместным, какие вопросы являются правильными и где ожидать отрицательного влияния на развертывание. Мы понимаем ожидания корпоративных пользователей, а также технологические требования. Мы можем помочь в создании значительной коммерческой ценности, и пользователи среды Spark уже достигают этого в таких сферах деятельности, как многоканальная персонализация потребителей и обнаружение неисправностей в реальном времени в высокотехнологичном производстве».

Сегодня Think Big предоставляет управляемые услуги для платформы Hadoop в области поддержки платформ и приложений с четко определенными процессами, инструментами и располагает профессионалами в области больших данных для доступного управления, осуществления контроля и обслуживания платформы Hadoop. «Приступая к любому заданию с четко определенными процессами передачи, компания Think Big оценивает и оптимизирует работу отделов материально-технического обеспечения производства и перспективного проектирования клиента, что ведет к успешному развертыванию среды», — указали в Teradata.