Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - страница 4



область AI публикаций Нейронный Machine Learning 11.098 Computer Vision 11.001 Языки 5.573 Robotics 2.571 Общий AI 1.923 Статистический ML 1.818

Также косвенно можно посмотреть по распределению конференций:

International Conference on Intelligent Robots and Systems (IROS) 25,719 Conference and Workshop on Neural Information Processing Systems (NIPS) 22,011 International Conference on Machine Learning (ICML) 10,800 The Conference on Computer Vision and Pattern Recognition (CVPR) 7,500 Association for the Advancement of Artificial Intelligence (AAAI) 4,884 International Joint Conference on Artificial Intelligence (IJCAI) 3,015

Безусловно, достигать больших результатов всё сложнее, но и важно, что распознавание мелких картинок довольно старая задача, которая уже не столь актуальна. Рассмотрим другие перспективные области, в которых устраиваются соревнования:

* распознавание речи, используемый для субтитров видео;

* генерация изображений лиц людей: Fréchet Inception Distance (DID) – c 01/2018 по 07/2020 уменьшился с 40 до 25.4;

* распознавание фейковых изображений, которые могут использоваться при фильтрации в социальных сетях и новостях: Deepfake Detection Challenge, Логистическая функция ошибки с 0.7 до 0.19 за 4 месяца;

* распознавание расположения ключевых точек и суставов на изображении человека, которые могут использоваться в кинематографе и магазинах без касс, таких как Amazon.Go: Keypoint Detection Challenge в Common Objects in Context (COCO) – увеличение с 62% до 80.8% за 4 года;

* альтернативная задача по распознаванию контуров человека – DensePose Challenge в Common Objects in Context (COCO) с 55% до 72% за полтора года;

* сегментация изображения по областям (выделение объектов: дорога, человек, здание, пешеходная зона), которое может применяться для автопилотов, для создания коллажей, смена фона в кинематографе, дополненной реальности: PIXEL-LEVEL SEMANTIC LABELING TASK в CITYSCAPES CHALLENGE с 63% до 85% за 5 лет;

* распознавание типа действия на видео, которое може использоваться полицией или службами безопасности: Temporal Action Localization Task в датасете ActivityNet с вероятностью угадывания с 18% до 42.8% за 4 года;

* распознавание объектов на фото, которое может использоваться в автопилотах: MEAN AVERAGE PRECISION в датасете You Only Look Once (YOLO);

* распознавание людей по лицам, которые используется авторизации по лицу (банки, магазины, метро): Face Recognition Vendor Test (FRVT) в National Institute of Standards and Technology (NIST) с ошибкой до 0.22% за 3 года;

* понимание текста в датасете Stanford Question Answering Dataset (SQuAD) с 45% до 90.3% за полтора года (лучше человека);

* опрос по картинке на соревновании Visual Question Answering (VQA) Challenge в задаче Visual Commonsense Reasoning (VCR) Task с 68% до 95.4% для версии SQuAD v1.1 (лучше человека);

* рассуждения по тексту или картинке на соревновании Visual Question Answering (VQA) Challenge за 4.5 года с точностью с 55% до 76.4%;

* распознавание речи по датасету LibriSpeech в задаче Transcribe Speech – количество ошибок уменьшилось за четыре года без шумов 5.3%..1.4%, а с шумами 13.3%..2.6%;

* распознавание какому человеку принадлежит реч: 0,6% ошибок;

* предсказание структуры белка с 2016 года обогнала физически модели с точностью 40% и на 2020 год достигли точности 84%;