Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - страница 6

Что, касается самой профессии Data scines – это аналитик данных, который на основе понимания предметной области может с помощью статистических методов используя инструменты (языки, системы) получить предсказания. Более подробно о навыках:

* математическая статистика и теория вероятностей, чтобы мог выбрать статистические методы, где ML не нужен;

* алгоритмы ML: регрессия, классификация, кластеризация, порождения (генерации), сопоставление;

* программирование: аналитика на R, написание моделей на Python и подключение данных из Java+SQL (Hadoop, Hive, Spark, Pig), управление жизненным циклом модели (DevOps, SRE);

* мягки навыки: понимание предметной области (ориентация на бизнес результат), проектное управление (коммуникация для построения запуска модели), аналитика для проверки гипотез.

Пишем свою сеть

Для примера возьмём прописные числа от нуля до девяти, которые мы будет сопоставлять с печатными. Если прописные точно попадают в контур – то всё просто, нам нужно просто перебрать контура печатных и получить подходящий вариант. Такая задача не относится к задачам машинного обучения. Теперь усложним задачу – числа у нас не точно попадают под шаблон. Если прописные числа немного не вписываются в контур – мы просто находим какое–то отклонение. И тут возникает сложность при категоризации прописного числа на ноль и девятку, когда размер хвостика отделяет небрежное написание нуля от девятки. Другой момент в категоризации восьмёрки и девятки. Так, если кончик отгибается – это десятка, а если загибается и прикасается – то восьмёрка. Для решения подобной ситуации нужно разделить цифру на области и в зависимости и присвоить им разные коэффициенты. Так, соединение хвостика нижней части имеет очень высокое значение, нежели форма самих окружностей в классификации на восьмёрки и девятки. Определить помогут статистические данные по заранее данной выборке соответствия фигур восьмёркам и девяткам, где исследователь сможет определить, когда уже можно высчитать нижнее кольцо замкнутым и говорить о соответствии восьмёрке фигуры, а когда нет, говорить о соответствии девятке. Такой метод сортировки, основанный на выделении отдельных компонент, на различии которых и принимается решение о сортировке, называется методом главных компонент. Но мы можем программным способом разделить цифры на сектора и присвоить им коэффициенты.

Другой сложностью может быть то, что цифра может быть не в наблюдаемой области, а в произвольной, например, в углу. Для анализа самой цифры нам нужно переместить анализирующее окно в то место, где находится цифра. Для простоты пока будем полагать, что габариты анализирующего окна равны габаритам исследуемой цифры. Для решения этой задачи перед сетью ставят анализирующий слой, образующий карту нахождения цифры. Задача этого слоя определить местоположение цифры на картинке. Для простоты возьмём чёрное изображение на белом листе. Нам нужно пройтись анализатором цифры построчно по всему листку и определить местоположение. В качестве индикатора возьмём площадь чёрного цвета на индикаторе. После прохождения по листку бумаги и определения площади мы получим матрицу с цифрами площадей чёрного цвета. Где площадей чёрного цвета больше – в том месте цифра максимально вписалась в индикатор. Преобразование картинки в матрицу площадей называется операцией свёртки, а если это выполняет нейронный слой – свёрточный слой. Принцип работы был позаимствован у биологического зрительного нерва. Нейронные сети, в которых присутствует свёрточный слой (Conv Layers) называются свёрточными нейронными сетями (Convolutional Neural Network, CNN). Такие сети используют при распознавании изображения, а после при должном развитии их адаптировали для распознавания речи и текстов. Классически, CNN применяется для решения трёх задач при работе с изображениями:

Назад Вперед

Похожие книги

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData

Евгений Штольц

Программы

В этой книге Главный Архитектор Департамента Архитектуры Управления Технической Архитектуры (Центра Облачных Компетенций Cloud Native и Корпоративного университета архитекторов) и архитектор решения Сбербанка делится знаниями и опытом с читателей в области ML, полученных в работе Школе архитекторов. Автор:* проводит читателя через процесс создания, обучения и развития нейронной сети, показывая детально на примерах* повышает кругозор, показывая, к

Читать онлайн

Элементарный TELEGRAM. Все, что нужно знать о самом перспективном мессенджере страны, чтобы на нем зарабатывать

Алексей Шабаршин

Интернет-бизнес

Telegram – самый перспективный мессенджер в современном мире. Прирост более 100 млн новых пользователей в год, приятная политика конфиденциальности и безграничные возможности заработка обеспечивают платформе сумасшедшую популярность.Вы хотите развивать экспертный блог? Скупить несколько каналов и зарабатывать на рекламе? Или создавать контент, работая на других админов? Каким бы ни был ваш запрос, telegram сможет удовлетворить его.Алексей Шабарши

Читать онлайн

Компьютерные методы анализа почерка

Юрий Чернов

Программы

Книга посвящена компьютерным методам анализа почерка. Автор рассматривает анализ почерка как одно из перспективных направлений психологии, медицины, социологии, педагогики. С развитием цифровых технологий письмо от руки, с одной стороны, используется все меньше, с другой стороны, эти технологии предоставляют новые возможности для научно-обоснованного анализа почерка. Письмо от руки остается неотъемлемой частью нашей культуры и практики. В книге о

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Castlevania. Наследие игровой саги

Джанни Молинаро

Программы

Узнайте, как эволюционировала сага – от платформера и исследования к элементам RPG и 3D-слэшеру. Внутри вас ждет не только сюжет и лор франшизы, но и описание механик, история разработки, а также примеры, как серия Castlevania повлияла на игровую индустрию.Погрузитесь в леденящую душу историю:Чем, кроме «Дракулы» Брэма Стокера, вдохновлялись разработчики и как роман стал частью канона.Что общего у кнута «Убийца вампиров» с «Клинками Хаоса» из God

Читать онлайн

Деньги в полном порядке: 7 финансовых привычек, которые позволят вам жить так, как вы хотите

Рэйчел Круз

Личные финансы

Рэйчел Круз – известная американская писательница, чьи книги о личных финансах помогли тысячам читателей построить и улучшить свой бюджет. Ее бестселлер Smart Money Smart Kids в рекордные сроки занял первое место в списке New York Times в 2014 году. По мнению Рэйчел Круз, наше общество привыкло мгновенно удовлетворять свои желания, что идет вразрез с принципами разумных трат. «Это требует дисциплины и мышления», – заявила она в интервью Kansas Ci

Читать онлайн

Великий Корень. Объединяя миры

Тарас Фомченков

Боевая фантастика

Никто не мог и представить, что обычная трава станет врагом номер один и начнет охотиться на людей… А Земля окажется на пересечении интересов темных и светлых сил. И неизвестно, какая из них окажется более полезной для человечества.Мир и война, любовь и ненависть, новые цивилизации и открытия, которые переворачивают представление о возникновении Вселенной – все это узнает Сергей после того, как познакомится с Великим Корнем.Но сначала нужна пропо

Читать онлайн