НОУ ИНТУИТ | Microsoft Windows Azure. Лекция 7: Бизнес-аналитика и анализ данных с SQL Reporting и Hadoop

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 28.01.2014 | Доступ: свободный | Студентов: 2274 / 266 | Длительность: 14:33:00

Темы: Сетевые технологии, Операционные системы

Специальности: Администратор информационных систем, Администратор коммуникационных систем

|

Вам нравится? Нравится 61 студенту

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Создадим задачу Map/Reduce из тестового набора. Для этого нажмем кнопку Samples.

увеличить изображение
Рис. 10.31. Набор тестовых задач HDInsight

Нажмем кнопку Pi Estimator. На странице тестовой задачи нажмем Deploy to your cluster. Это приведет к странице, которую можно также вызвать, нажав кнопку Create Job. Будет открыта страница добавления новой задачи, на которой необходимо ввести название задачи, указать JAR-файл задачи и настроить параметры (если таковые есть). В случае тестовой задачи эти данные заполняются автоматически.

увеличить изображение
Рис. 10.32. Добавление задачи на расчет

Задача, которую мы запустим, инициирует расчет числа Пи, исходя из 16 Maps (первый параметр в команде) и 10 млн. сэмплов на каждый Map (второй параметр).

Нажмем Execute Job и дождемся выполнения задачи. После окончания выполнения будут выведены результаты и служебная информация о задаче.

увеличить изображение
Рис. 10.33. Результат выполнения задачи по вычислению числа Пи

Воспользуемся интерактивной консолью для расчета скрипта на Javascript (Map/Reduce). В качестве примера возьмем тестовую задачу по подсчету слов. Для этого загрузим скрипт WordCount.js и текстовый файл davinci.txt, зайдя на страницу Samples и нажав на кнопку WordCount.

увеличить изображение
Рис. 10.34. Описание тестовой задачи WordCount

Вернемся на главную страницу панели управления кластером и нажмем на кнопку Interactive Console. Обратите внимание, что ту же задачу можно выполнить, нажав Deploy to your cluster.

Введем в интерактивную консоль команду fs.put() для загрузки файла WordCount.js. Выберем загруженный локально файл. Значение Destination укажем равным ./WordCount.js/. Повторим процедуру для загрузки файла davinci.txt. Значение Destination для davinci.txt укажем равным ./example/data/.

увеличить изображение
Рис. 10.35.

Выполним команду, указанную ниже, и, после выполнения задачи, нажмем View Log для просмотра информации о задаче.

pig.from("/example/data/davinci.txt").mapReduce("WordCount.js", 
"word, count:long").orderBy("count DESC").take(10).to("DaVinciTop10Words")

Увидеть результаты мы можем, введя команду fs.read("DaVinciTop10Words").

Рис. 10.36. Результат выполнения задачи, созданной в интерактивной консоли

Подробнее про разработку приложений для HDInsight рассказано в блоге на MSDN: http://blogs.msdn.com/b/benjguin/archive/2012/02/09/analyzing-1-tb-of-iis-logs-with-hadoop-map-reduce-on-azure-with-javascript-analyse-d-1-to-de-journaux-iis-avec-hadoop-map-reduce-en-javascript.aspx

Заключение

С появлением тенденции быстрого увеличения количества данных, существующей в сегодняшнем мире, и распространением термина Big Data (Большие данные), локальные центры, которые часто не могут покрыть потребности в обработке все возрастающих массивов данных, могут быть как заменены, так и дополнены (в зависимости от сценариев) ресурсами, хранящимися в облаке, для того, чтобы оптимизировать затраты и увеличить эффективность производства.

Дальше >>

Авторизоваться

Microsoft Windows Azure

Бизнес-аналитика и анализ данных с SQL Reporting и Hadoop

Заключение

Вопросы и ответы