Большие данные 2022 весна

Материал из Wiki
(Различия между версиями)
Перейти к: навигация, поиск
 
Строка 111: Строка 111:
  
 
Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing
 
Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing
 +
 +
Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure
 +
 +
Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие.
 +
Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность,
 +
клиентоориентированность и, непосредственно, функционал)
 +
 +
Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.
 +
 +
Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.
 +
 +
Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).
 +
 +
Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.
  
  

Текущая версия на 16:06, 21 мая 2022

18.04.2022

Ml Sbercloud

S3

Kafka

Data Lake Insight

MapReduce Service


Для проработки 04.04.2022:

Change Data Capture (CDC): What it is and How it Works

ETL и ELT: 5 основных отличий

Building a Modern Data Stack at Whatnot

Real-time data ingestion in Grab

Data Lake

The Key Feature Behind Lakehouse Data Architecture


Для проработки 28.03.2022:

Spark

YARN


HDFS

Cassandra

Kafka

Ролик Spark

Hadoop



Azure:

Machine Learning in Azure 1 часть 1

Machine Learning in Azure 1 часть 2

Machine Learning in Azure 2


Machine Learning in Azure 3



Лекции и общие задания

07.02.2022 Лекция 1.

Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО

Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere

Yandex.Cloud

14.02.2022 Занятие по YandexCloud

Команда: Корсаков, Демин, Тодорич, Глянцев, Луцикова

Получилось сделать перевод введенного текста на python. Скрипт соединяется с сервисом yandex'а и, пользуясь своими ресурсами, переводит текст возвращая json строку, из которой достается переведенный текст. Были использованы документации для успешной работы, а именно:

Для получения IAM-Токена: https://cloud.yandex.ru/docs/iam/operations/iam-token/create

Соединением с сервисом яндекса: https://cloud.yandex.ru/docs/translate/operations/translate

Получив IAM-Токен и идентификатор каталога не составило труда дописать скрипт.


Команда: Алешин, Жижин, Кузнецов, Кузьминых, Гакиев, Сафин, Салимов, Иванов

При работе через сайт не принимает файл .wav (ошибка 400)

С помощью команды yc iam create-token в cmd получили IAM-Токен. Из каталога скопировали его идентификатор. С помощью примера использования API получилось достать из файла расширения .pcm текст(https://cloud.yandex.ru/docs/speechkit/stt/api/streaming-examples). С файлами другого расширения результата получить не удалось.


Команда: Битарова, Перминова, Суржикова, Счастливая

Работали с Yandex Translate. Перевод текста осуществлялся на python.

Во-первых, мы нашли OAuth-токен, который впоследствии обменяли на нужный нам IAM-токен. Обмен осуществлялся с помощью Windows PowerShell. Далее нужный программный код, для перевода текста, мы загрузили в онлайн-компилятор. Было проведено 2 запроса: с английского языка на русский, и наоборот - с русского на английский. Оба запроса выполнились успешно: показывался перевод слова и с какого языка было переведено.

Ссылка на скрины с кодом и результатом его выполнения:https: https://disk.yandex.ru/d/83ljw6TT0IhNgA


Команда: Магеррамов, Киселева, Колесников, Лапина

Работа с Yandex Speechkit. Cоздан платежный аккаунт, с помощью Windows PowerShell получен IAM-токен для дальнейшей работы с сервисом. На языке программирования python написана программа, позволяющая переводить полученный на вход текст в аудиофайл формата .raw. Планировалось внутри программы конвертировать формат .raw в .wav с помощью утилиты sox, рекомендуемой YandexCloud. По какой-то причине конвертация не работает, но для проверки результата была скачана сторонняя программа, позволяющая изменить формат и прослушать аудиозапись.

Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing

Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure

Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие. Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность, клиентоориентированность и, непосредственно, функционал)

Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.

Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.

Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).

Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.


Успехи выполнения:


Правила тарификации для DataSphere

Настройки прав доступа

вебинары

Руководства

Понятия и конфигурации

Персональные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты