НОУ ИНТУИТ | Алгоритмы интеллектуальной обработки больших объемов данных

Курсы представлены компанией Mail.ru Group

Проекты: Технопарк, Техносфера

Канал на yotube.com: Технопарк Mail.ru Group

Авторы: Николай Анохин, Владимир Гулин, Павел Нестеров | Технопарк Mail.ru Group

Николай
Анохин,...

Владимир
Гулин,...

Павел
Нестеров,...

Форма обучения:

дистанционная

Стоимость самостоятельного обучения:

бесплатно

Доступ:

свободный

Документ об окончании:

сертификат

Вам нравится? Нравится 59 студентам

Уровень:

Для всех

Длительность:

4:33:00

Студентов:

1540

Выпускников:

120

Купить курс [?]

Поддержать курс

В курсе изучаются подходы к решению задач Data Mining, основанных на алгоритмах машинного обучения.

Объемы данных, ежедневно генерируемые сервисами крупной интернет компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.

Темы: Базы данных, Алгоритмы и дискретные структуры

Специальности: Программист, Системный архитектор, Администратор информационных систем, Архитектор программного обеспечения

Дополнительные курсы

2 часа 30 минут

Сдать экзамен экстерном

Лекция 1

Задачи Data Mining

Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.

Оглавление

Тест 1

21 минута

7 заданий

Лекция 2

Задача кластеризации и ЕМ-алгоритм

Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.

Оглавление

Тест 2

21 минута

7 заданий

Лекция 3

Различные алгоритмы кластеризации

Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.

Оглавление

Тест 3

21 минута

7 заданий

Лекция 4

Задача классификации

Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.

Оглавление

Тест 4

21 минута

7 заданий

Лекция 5

Обработка текстов, Naive Bayes

Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.

Оглавление

Тест 5

21 минута

7 заданий

Лекция 6

Линейные модели для классификации и регрессии

Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.

Оглавление

Тест 6

21 минута

7 заданий

Лекция 7

Машина опорных векторов

Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.

Оглавление

Тест 7

21 минута

7 заданий

Лекция 8

Методы снижения размерности пространства

Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.

Оглавление

Тест 8

21 минута

7 заданий

Лекция 9

Алгоритмические композиции

Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.

Оглавление

Тест 9

21 минута

7 заданий

Лекция 10

Алгоритмические композиции

Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгоритм AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.

Оглавление

Тест 10

21 минута

7 заданий

Лекция 11

Основы нейронных сетей

Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.

Оглавление

Тест 11

21 минута

7 заданий

Лекция 12

Ограниченная машина Больцмана

Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.

Оглавление

Тест 12

21 минута

7 заданий

Лекция 13

Глубокие нейронные сети

Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.

Оглавление

Авторизоваться

Технопарк Mail.ru Group: Алгоритмы интеллектуальной обработки больших объемов данных: Информация

Дополнительные курсы

План занятий