Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации - страница 4
Большие данные
Английское словосочетание Big Data дословно переводится как «большие данные». По сути – это подробная информация о предмете. К примеру, большие данные для торгового центра включают в себя сведения о чеках покупателей, о количестве посетителей и даже о температуре внутри здания в течение всего дня. При этом данные не ограничиваются стенами торгового центра, в них могут быть добавлены заметки о количестве людей, пользующихся ближайшей станцией метро. Или даже информация о частоте стрижки городскими службами расположенных в радиусе ста метров от торгового центра кустов. Эти с виду бесполезные данные, скрупулезно собираемые в течение продолжительного периода времени, и называются «большими данными».
При этом они представляют собой не только числа. Это могут быть:
• Текстовые отзывы клиентов и их обращения в службу поддержки.
• Комментарии в социальных сетях.
• Записи телефонных разговоров с клиентом.
• Фотографии – от аватаров клиентов до снимков товаров.
• Видео с камер наблюдения.
Вся эта информация может легко занимать десятки терабайт. И чем старше фирма, тем больше у нее накоплено данных для проведения ценных исследований: в современном мире намного дороже удалять старую информацию, чем хранить ее вечно. Это как раз тот случай, когда «своя ноша не тянет».
Из-за непрерывно поступающих данных компании стараются минимизировать объемы хранящейся информации для снижения расходов на электронные носители. Для этого, например, аудио- и видеозаписи с помощью специальных алгоритмов переводятся в более компактный вид. Из аудиофайлов выделяют речь. Из видеозаписей, например с камер наблюдения, можно получить данные о количестве находящихся в магазине посетителей. Поэтому если преобразовывают формат, то нет нужды хранить само исходное видео или аудио. Более того, даже обычная текстовая информация, которая и так занимает немного места, отлично сжимается благодаря современным алгоритмам. Это сильно уменьшает занятый объем хранилища компании. Однако, несмотря на затраты, сейчас даже у небольших предприятий, далеких от информационных технологий, можно найти в кладовке работающий сервер, забитый несколькими терабайтами данных.
Непосвященному человеку куча устаревшей информации на серверах компании может показаться мусором. Но на самом деле это нефть 21 века. Огромные массивы накопленных данных используются для предсказания будущего, в котором бизнес сможет развиваться лучше и заработать больше. Делаются такие прогнозы не напрямую человеком, а посредством компьютера, в который вложены специальные математические алгоритмы. Даже если на график, на котором отображено ежедневное изменение тысячи параметров за последний год, посмотрит хорошо подготовленный специалист, он увидит лишь забор из линий. А компьютер, машина, не напрягаясь сможет сделать верный вывод о влиянии этих параметров на чистую прибыль компании. Но если бы данные вообще не были собраны, то и никакого вывода сделать было бы нельзя. Именно для этого всевозможная информация и хранится в компании, потому что без нее невозможно натренировать машинный интеллект, сделать с его помощью прогноз на будущее и получить выгоду для бизнеса.
Далеко не все данные, которые попадают на серверы компании, представлены в удобном для использования виде. Поэтому «склады» этих данных разделяют на несколько типов, между которыми непрерывно перекачивается информация, изменяя свою форму (или, говоря профессиональным языком, формат). Первый склад называется «озеро данных» (с английского ”Data Lake”). В него попадает вообще все, во всех возможных форматах. Там могут находиться файлы текстовых документов PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского ”Chief Data Officer”). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского ”Data Governance”).