Технологии больших данных (Открытые системы). Москва, июнь 2017 года. Артемьев Валерий Иванович (Банк России).


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.

Технологии больших данных

(Открытые системы)

Москва, июнь 2017 года



Артемьев Балерий Иванович (Банк России)

Причины
неудач проектов

больших данных


Рассмотрим три аспекта

применения больших данных

1. Ужцопмпдйй

2. Бобмйуйлб

3. Бйиожт

Big Data

Текушее состояние технологий

под зонтиком
Big data

Большие
данные

Распределённые
файловые системы

Базы данных

SQL

SQL
на
Hadoop

NoSQL

Интеграция и
качество данных

Обработка потоков
данных и событий

Распределённая
обработка данных

Анализ данных

Интеллектуальный анализ данных

Бизнес
-
аналитика

Продвинутая аналитика

Sqoop

Flume

HDFS

Map/Reduce

Spark

Spark Streaming

Hive/HCatalog

Impala

Accumulo

Tez, Presto,


Talend,

Informatica,


HBase

Cassandra, Vertica

MongoDB

Reddis, Neo4J,


Storm,


Механизмы
поиска

Solr

ElasticSearch

Lucene

GlusterFS,


GreenPlum, Vectorwise

Oracle, DB2, MS SQL

Среды
программирования

Python

Java

R, Scala,


Преобладание
OpenSource
.

Экосистемы вокруг
Hadoop/MR
и
Spark
.

От
batch

к
real time


Блияние на традиционное
управление данными,
интеграцию и анализ данных

Имеются решения в облаках.

Появились архитектурные
шаблоны
Big data

Развертывание
системы

Безопасность

Программирование
сервисов

Планирование
выполнения

Управление
кластером

Big


data

Data Management Solutions for Analytics

Data Integration Tools

Куда
Gartner
дел зонтик
Big data
?

Big


data

Кпочжруфбмэоьж бсцйужлуфсоьж

шбвмпоь г пвмбтуй впмэшйц ебооьц

1

2

3

4

Рационализация

Исполнение

5

Резервуар
(
озеро) данных

Ужцопмпдйшжтлйж рспвмжнь
Big data

й сжлпнжоебчйй рп йц рсжпепмжойя


Трудности развёртывания
инфраструктуры
Big data


Огромное разнообразие программных
средств


Постоянное изменение программных
средств


Нет экспертизы в России , только
удалённая поддержка от поставшиков


Мало опыта интеграции
Open source

решений в корпоративный ландшафт


Отсутствие документации и обучения
на русском языке


Дорогие специалисты, так
называемые
Data engineer


Российские требования по
безопасности и сертификации


Бысокие теневые затраты


Сложность создания ИТ

решений



Необходимо создать
технологический стенд


Минимизируйте производственную
экосистему, управляйте версиями


Быбирайте согласованные
сопутствуюшие продукты


Используйте экосистемы от
российского производителя


Развивайте свою экспертизу

и компетенции по инфраструктуре

Big data
и
Open source


Определите правила
сушествования
Open source
решений в корпоративной среде


Контролируйте теневые затраты
(на инфраструктуру и ПО)


Применяйте концептуальные
архитектурные шаблоны


Бобмйуйшжтлйж нжупеь й тсжетугб

Бйиожт
-
бобмйуйлб

(Business Intelligence)


Рспйигпетугжообё
пушёуоптуэ (
Reporting
)


Рспйигпмэоьж ибрспть
(
Ad hoc query
)


Джмпгбё дсбхйлб


Нопдпнжсоьк бобмйи
(
OLAP
)


Иохпснбчйпооьж

рбожмй (
Dashboarding
)


Пчжопшоьж лбсуь
(
Scorecarding
)


Иттмжепгбойж ебооьц
(
Data discovery
)



Иоужммжлуфбмэоьк
бобмйи ебооьц

(
Data mining
)


Нбшйоопж пвфшжойж


Кмбттйхйлбчйё


Сждсжттйпооьж нпежмй


Кмбтужсйибчйё


Бттпчйбуйгоьж нпежмй


Ожкспооьж тжуй


Всжнжооьж
рптмжепгбужмэоптуй


Рпйтл тфщжтугжооьц
бусйвфупг


Нпежмй йтлмяшжойк


Вьежмжойж рсйиоблпг



Рспегйофубё бобмйуйлб

(Advanced analytics)


Тубуйтуйшжтлйк бобмйи


Рспдопийспгбойж


Нпежмйспгбойж


Бобмйи гсжнжооьц сёепг


Сйтл
-
бобмйи

(Value at risk
, …
)


Бобмйи ожтусфлуфсйспгбоопк
й
рпмфтусфлуфсйспгбоопк

йохпснбчйй


Сжлпнжоебчйй


Бобмйи упобмэоптуй лпоужоуб


Рспегйофубё гйифбмйибчйё


Рсжерйтьгбящбё бобмйуйлб

Чирокий спектр инструментов
и самообслуживание.

Сейчас фокусируются на
предсказательную аналитику

Развитие
data discovery
:
доступ к
Big data
, поддержка
R.

Упрошение работы
data
scientist
и бизнес
-
аналитика

Наибольший выигрыш от
использования
Big data
сулит
операционная и предсказательная
аналитика

Бйвмйпужлй, рблжуь рспдсбнн, рмбухпснь, пвмбшоьж тжсгйть

Business Intelligence

and Analytics Platforms

Видмёе
Gartner

об бобмйуйшжтлйж

ужцопмпдйй, глмяшбящйж
Big Data

Data Science Platforms

(
Advanced Analytics Platforms
)

Кто такой
data scientist


и каковы его компетенции?

Бобмйуйл?



Несомненно!

Тубуйтуйл

й нбужнбуйл
?



Да

Мйодгйту?



Самую малость

Тржч
рп йоуждсбчйй ебооьц
?



Да

Тржч
рп вбибн ебооьц
?


Конечно!

Рспдсбннйту?



Без этого никак!

Тйтужнщйл?



Приходится

Бйиожт

бобмйуйл
?



Хотелось
бы

Методы и средства бизнес

аналитики,

data mining

и продвинутой аналитики

Основы математики и математической
статистики

Азы лингвистики и особенности анализа
текстов

(text mining)

Интеграция данных и обеспечение
качества данных

(ELT, Data federation, QA)

Управление базами данных
SQL
и
NoSQL

Среды программирования
Python, R, …


Распределённая обработка данных,
потоков и событий

Распределённая файловая система

HDFS

Файловая система и команды
Linux

Моделируемые бизнес
-
процессы

и функции

Data science


сбиежм йохпснбуйлй, йифшбящйк нжупеь й

тсжетугб бобмйиб, пвсбвпулй й рсжетубгмжойё ебооьц ( глмяшбё
Big data)

Барьеры в аналитике и пути

их преодоления


Джхйчйу тржчйбмйтупг
data scientist


Вьтплбё тупйнптуэ тржчйбмйтуб
data
scientist
й ждп рпедпупглй


Шйсплйк тржлус нжупепг й тсжетуг
data
science


ржсждсфзжооптуэ тржчйбмйтуб


Тмпзоптуэ лпнрмжлтопдп йтрпмэипгбойё
йотусфнжоупг г сжзйнж ©тежмбк тбнª


Ожтпгрбежойж сжифмэубупг сжшжойё пеопк
ибебшй сбиоьнй йотусфнжоубнй


Чйтмп мпзоьц лпссжмёчйк сбтуёу

т фгжмйшжойжн пвыёнб ебооьц


Ожсжелп усфеоп йоужсрсжуйспгбуэ
сжифмэубуь бобмйиб


Ртйцпмпдйшжтлйк вбсэжс г гптрсйёуйй
сжифмэубупг бобмйиб йи шёсопдп ёщйлб


Рспвмжнь лбшжтугб ебооьц


Впрспть йохпснбчйпоопк вжипрбтоптуй


Ож ибгжсшжоп йинжожойж лпсрпсбуйгопдп
фрсбгмжойё ебооьнй т фшёупн
Big data


Тржчйбмйтупг
data

scientist
ож нпзжу вьуэ нопдп


Вьёгмёкуж й дпупгэуж тгпйц бобмйуйлпг,
йщйуж об тупспож, рбсуоёсь


гфиь
Хпснйсфкуж твбмботйспгбоофя лпнбоеф
тржчйбмйтупг
data science


Обшойуж т мбвпсбупсйй ебооьц


Дмё фрспщжойё сбвпуь рсйнжоёкуж

тсжетугб
data discovery
й
data mining


Пувйсбкуж мфшшйж нжупеь й тсжетугб г
лполфсжоуопк впсэвж


Нопдп ебооьц


ож гтждеб цпспшп


Итрпмэифкуж рспегйофуфя гйифбмйибчйя
емё рсжетубгмжойё сжифмэубупг бобмйиб


Птгбйгбкуж
lean
-
рпецпеь йоуждсбчйй й
лбшжтугб ебооьц


Прсжежмйуж рпмйуйлф йохпснбчйпоопк
вжипрбтоптуй рсй бобмйиж ебооьц


Рмбойсфкуж йинжожойж лпсрпсбуйгопдп
фрсбгмжойё ебооьнй т фшёупн
Big data


Кблйж лмбтть ибебш сжшбяутё

й лблйж йтупшойлй ебооьц рсйнжоёяутё?


Классы задач


Обработка
событий


Обработка потоковых
данных


Операционная
аналитика


Предписываюшая
аналитика


Предсказательная
аналитика


Ситуационные
центры


Источники
данных


Web
-
ресурсы (клики,
посешение страниц,
поиски,
ссылки, контент
)


Социальные медиа
(контент,
геолокация
,
голос, изображения,
видео, связи, оценки)


Машинные данные
(
логи
, телеметрия,
геолокация
, голос,
изображения, видео)


Причины неудач, связанные

с предметной областью


Слабое знание своей
предметной
области


Недостаточная зрелость
аналитики и управления
данными в организации


Неосведомлённость о
возможностях анализа
больших данных


Нет чётко поставленной цели


Тактические задачи без
стратегического прицела


Неясна ценность для бизнеса


Несоответствие ожиданиям




Организационное

выделение
бизнес
-
аналитиков


Повышайте уровень зрелости

в
аналитике и управлении
данными


Больше осведомлённости
об
анализе
больших данных


Ставьте чёткие цели и
прогнозируйте реальные
результаты


Нужны и тактические задачи и
стратегический прицел


Адаптируйте
идеи и решения
из смежных областей


Несколько слов на посошок


Бизнес

проекты, а не технологии ради технологий


Не ишите большие данные, ишите и решайте
серьёзные аналитические задачи


Повышайте осведомлённость и компетенции

по
Data science

и
Big data


Экспериментируйте, если можете себе

это позволить


Осторожно, аналитика


коварная штука


Большие данные нужны далеко не всем


Не хакеры

аналитики, а команда
единомышленников (аналитики + бизнес + ИТ)


Инструменты
Data science
и
Big data c
о временем
станут менее изошрёнными


Big data

станет пройденным этапом и исчезнет

Спасибо за внимание.


Центр информационных технологий

Банка России


Балерий Иванович Артемьев



Тел.: +7(495) 753
-
96
-
25


e
-
mail:

[email protected]

Ответы на вопросы


Департамент информационных технологий

Банка России


Балерий Иванович Артемьев



Тел.: +7(495) 753
-
96
-
25


e
-
mail:

[email protected]


Приложенные файлы

  • pdf 11095471
    Размер файла: 706 kB Загрузок: 0

Добавить комментарий