Большие данные 2022 осень

Материал из Wiki
(Различия между версиями)
Перейти к: навигация, поиск
Строка 49: Строка 49:
 
[https://www.youtube.com/watch?v=0nnC8MCHInk Machine Learning in Azure 3]
 
[https://www.youtube.com/watch?v=0nnC8MCHInk Machine Learning in Azure 3]
  
 +
 +
 +
7.10.2022
 +
 +
[https://docs.sbercloud.ru/dli/ug/index.html Data Lake Insight]
 +
 +
[https://www.bigdataschool.ru/wiki/data-lake Data Lake]
 +
 +
 +
[https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f The Key Feature Behind Lakehouse Data Architecture]
 +
 +
 +
[https://www.bigdataschool.ru/wiki/hdfs HDFS]
 +
 +
[https://www.bigdataschool.ru/wiki/cassandra Cassandra]
  
  
Строка 62: Строка 77:
 
[https://docs.sbercloud.ru/platform-v-kafka-sber-edition/ug/index.html Kafka]
 
[https://docs.sbercloud.ru/platform-v-kafka-sber-edition/ug/index.html Kafka]
  
[https://docs.sbercloud.ru/dli/ug/index.html Data Lake Insight]
+
 
  
 
[https://docs.sbercloud.ru/mrs/ug/index.html MapReduce Service]
 
[https://docs.sbercloud.ru/mrs/ug/index.html MapReduce Service]
Строка 77: Строка 92:
 
[https://engineering.grab.com/real-time-data-ingestion Real-time data ingestion in Grab]
 
[https://engineering.grab.com/real-time-data-ingestion Real-time data ingestion in Grab]
  
[https://www.bigdataschool.ru/wiki/data-lake Data Lake]
 
  
[https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f The Key Feature Behind Lakehouse Data Architecture]
+
 
  
  
Строка 89: Строка 103:
  
  
[https://www.bigdataschool.ru/wiki/hdfs HDFS]
 
  
[https://www.bigdataschool.ru/wiki/cassandra Cassandra]
 
  
 
[https://www.bigdataschool.ru/wiki/kafka Kafka]
 
[https://www.bigdataschool.ru/wiki/kafka Kafka]

Версия 14:12, 7 октября 2022

09.09.2022 Лекция 1. Презентация Лекции 1

Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО

Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere

Yandex.Cloud

Задание 3: сделать любой пример по аналогии с документацией на DataLens

Пичугин Дашборд Карта продаж

Шишко: Погода

Марьин: Дашборд

Макляев: [1]

Сидоров: Коронавирус

Поляков: Выручка

Фицева: Дашбор погода

Егоров: [2]

Ноль: Погода

Чернова: Dashboard

Оралов: Дашборд


Басистый: [3]

Пример

16.09.2022:

Azure:

Machine Learning in Azure 1 часть 1

Machine Learning in Azure 1 часть 2

Machine Learning in Azure 2


Machine Learning in Azure 3


7.10.2022

Data Lake Insight

Data Lake


The Key Feature Behind Lakehouse Data Architecture


HDFS

Cassandra


Старые материалы:

8.04.2022

Ml Sbercloud

S3

Kafka


MapReduce Service


Для проработки 04.04.2022:

Change Data Capture (CDC): What it is and How it Works

ETL и ELT: 5 основных отличий

Building a Modern Data Stack at Whatnot

Real-time data ingestion in Grab



Для проработки 28.03.2022:

Spark

YARN



Kafka

Ролик Spark

Hadoop





Лекции и общие задания

07.02.2022 Лекция 1.

Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО

Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere

Yandex.Cloud

14.02.2022 Занятие по YandexCloud

Команда: Корсаков, Демин, Тодорич, Глянцев, Луцикова

Получилось сделать перевод введенного текста на python. Скрипт соединяется с сервисом yandex'а и, пользуясь своими ресурсами, переводит текст возвращая json строку, из которой достается переведенный текст. Были использованы документации для успешной работы, а именно:

Для получения IAM-Токена: https://cloud.yandex.ru/docs/iam/operations/iam-token/create

Соединением с сервисом яндекса: https://cloud.yandex.ru/docs/translate/operations/translate

Получив IAM-Токен и идентификатор каталога не составило труда дописать скрипт.


Команда: Алешин, Жижин, Кузнецов, Кузьминых, Гакиев, Сафин, Салимов, Иванов

При работе через сайт не принимает файл .wav (ошибка 400)

С помощью команды yc iam create-token в cmd получили IAM-Токен. Из каталога скопировали его идентификатор. С помощью примера использования API получилось достать из файла расширения .pcm текст(https://cloud.yandex.ru/docs/speechkit/stt/api/streaming-examples). С файлами другого расширения результата получить не удалось.


Команда: Битарова, Перминова, Суржикова, Счастливая

Работали с Yandex Translate. Перевод текста осуществлялся на python.

Во-первых, мы нашли OAuth-токен, который впоследствии обменяли на нужный нам IAM-токен. Обмен осуществлялся с помощью Windows PowerShell. Далее нужный программный код, для перевода текста, мы загрузили в онлайн-компилятор. Было проведено 2 запроса: с английского языка на русский, и наоборот - с русского на английский. Оба запроса выполнились успешно: показывался перевод слова и с какого языка было переведено.

Ссылка на скрины с кодом и результатом его выполнения:https: https://disk.yandex.ru/d/83ljw6TT0IhNgA


Команда: Магеррамов, Киселева, Колесников, Лапина

Работа с Yandex Speechkit. Cоздан платежный аккаунт, с помощью Windows PowerShell получен IAM-токен для дальнейшей работы с сервисом. На языке программирования python написана программа, позволяющая переводить полученный на вход текст в аудиофайл формата .raw. Планировалось внутри программы конвертировать формат .raw в .wav с помощью утилиты sox, рекомендуемой YandexCloud. По какой-то причине конвертация не работает, но для проверки результата была скачана сторонняя программа, позволяющая изменить формат и прослушать аудиозапись.

Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing

Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure

Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие. Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность, клиентоориентированность и, непосредственно, функционал)

Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.

Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.

Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).

Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.


Успехи выполнения:


Правила тарификации для DataSphere

Настройки прав доступа

вебинары

Руководства

Понятия и конфигурации

Персональные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты