Большие данные 2022 осень
Dz (обсуждение | вклад) |
Dz (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
+ | Список вопросов: | ||
+ | |||
+ | 1. Понятия и области применения Big Data (Большие Данные), Machine Learning (Машинное обучение), Artificial Intelligence (Искуственный Интеллект, ИИ), Deep Learning (глубокое обучение), Data Mining, Text Mining. Место Больших Данных в современных информационных и интеллектуальных системах. | ||
+ | |||
+ | 2. Основные характеристики Больших Данных - разнообразие, высокая скорость поступления и большой объем. Требования к системам обработки БД - надёжность и отказоустойчивость (как от аппаратных проблем, так и от человеческого фактора); малые задержки чтения и записи данных; масштабируемость; обобщение; расширяемость; поддержка произвольного доступа; минимальное сопровождение; отлаживаемость. Недостатки инкрементных архитектур. Лямбда-архитектура. | ||
+ | |||
+ | 3. Системы параллельной обработки (MapReduce). Эластичные облака (IaaS). Системы пакетных вычислений (Hadoop – HDFS + MapReduce). Каркасы сериализации (Apachy Thrift). NoSQL (MongoDB, Cassandra). Системы обмена сообщениями и диспетчера очередей (Apachy Kafka). Системы вычислений в реальном времени (Apachy Storm). | ||
+ | |||
+ | 4. Существующие на рынке сервисы и платформы: Yandex DataSphere, Microsoft Azure, AWS. Интеграция Big Data и Machine Learning. | ||
+ | |||
+ | 5. Архитектура и возможности сервиса Yandex DataSphere | ||
+ | 6. Архитектура и возможности облачной платформы Microsoft Azure | ||
+ | 7. Архитектура и возможности облачной платформы AWS | ||
+ | 8. Сравнение возможностей платформ для работы с Большими Данными | ||
+ | 9. Архитектура и возможности облачной платформы Nubes | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
09.09.2022 Лекция 1. [https://disk.yandex.ru/i/zUDZ2oQZefComw Презентация Лекции 1] | 09.09.2022 Лекция 1. [https://disk.yandex.ru/i/zUDZ2oQZefComw Презентация Лекции 1] | ||
Версия 14:46, 9 декабря 2022
Список вопросов:
1. Понятия и области применения Big Data (Большие Данные), Machine Learning (Машинное обучение), Artificial Intelligence (Искуственный Интеллект, ИИ), Deep Learning (глубокое обучение), Data Mining, Text Mining. Место Больших Данных в современных информационных и интеллектуальных системах.
2. Основные характеристики Больших Данных - разнообразие, высокая скорость поступления и большой объем. Требования к системам обработки БД - надёжность и отказоустойчивость (как от аппаратных проблем, так и от человеческого фактора); малые задержки чтения и записи данных; масштабируемость; обобщение; расширяемость; поддержка произвольного доступа; минимальное сопровождение; отлаживаемость. Недостатки инкрементных архитектур. Лямбда-архитектура.
3. Системы параллельной обработки (MapReduce). Эластичные облака (IaaS). Системы пакетных вычислений (Hadoop – HDFS + MapReduce). Каркасы сериализации (Apachy Thrift). NoSQL (MongoDB, Cassandra). Системы обмена сообщениями и диспетчера очередей (Apachy Kafka). Системы вычислений в реальном времени (Apachy Storm).
4. Существующие на рынке сервисы и платформы: Yandex DataSphere, Microsoft Azure, AWS. Интеграция Big Data и Machine Learning.
5. Архитектура и возможности сервиса Yandex DataSphere 6. Архитектура и возможности облачной платформы Microsoft Azure 7. Архитектура и возможности облачной платформы AWS 8. Сравнение возможностей платформ для работы с Большими Данными 9. Архитектура и возможности облачной платформы Nubes
09.09.2022 Лекция 1. Презентация Лекции 1
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere
Задание 3: сделать любой пример по аналогии с документацией на DataLens
Пичугин Дашборд Карта продаж
Шишко: Погода
Марьин: Дашборд
Макляев: [1]
Сидоров: Коронавирус
Поляков: Выручка
Фицева: Дашбор погода
Егоров: [2]
Ноль: Погода
Чернова: Dashboard
Оралов: Дашборд
Басистый: [3]
16.09.2022:
Azure:
Machine Learning in Azure 1 часть 1
Machine Learning in Azure 1 часть 2
7.10.2022
The Key Feature Behind Lakehouse Data Architecture
14.10.2022
Старые материалы:
8.04.2022
Для проработки 04.04.2022:
Change Data Capture (CDC): What it is and How it Works
Building a Modern Data Stack at Whatnot
Real-time data ingestion in Grab
Для проработки 28.03.2022:
Лекции и общие задания
07.02.2022 Лекция 1.
Задание 1: ВСЕМ студентам - завести аккаунт на Yandex (почту)с реальными ФИО
Задание 2: просмотреть инструкции (в особенности - определения!) DataSphere
14.02.2022 Занятие по YandexCloud
Команда: Корсаков, Демин, Тодорич, Глянцев, Луцикова
Получилось сделать перевод введенного текста на python. Скрипт соединяется с сервисом yandex'а и, пользуясь своими ресурсами, переводит текст возвращая json строку, из которой достается переведенный текст. Были использованы документации для успешной работы, а именно:
Для получения IAM-Токена: https://cloud.yandex.ru/docs/iam/operations/iam-token/create
Соединением с сервисом яндекса: https://cloud.yandex.ru/docs/translate/operations/translate
Получив IAM-Токен и идентификатор каталога не составило труда дописать скрипт.
Команда: Алешин, Жижин, Кузнецов, Кузьминых, Гакиев, Сафин, Салимов, Иванов
При работе через сайт не принимает файл .wav (ошибка 400)
С помощью команды yc iam create-token в cmd получили IAM-Токен. Из каталога скопировали его идентификатор. С помощью примера использования API получилось достать из файла расширения .pcm текст(https://cloud.yandex.ru/docs/speechkit/stt/api/streaming-examples). С файлами другого расширения результата получить не удалось.
Команда: Битарова, Перминова, Суржикова, Счастливая
Работали с Yandex Translate. Перевод текста осуществлялся на python.
Во-первых, мы нашли OAuth-токен, который впоследствии обменяли на нужный нам IAM-токен. Обмен осуществлялся с помощью Windows PowerShell. Далее нужный программный код, для перевода текста, мы загрузили в онлайн-компилятор. Было проведено 2 запроса: с английского языка на русский, и наоборот - с русского на английский. Оба запроса выполнились успешно: показывался перевод слова и с какого языка было переведено.
Ссылка на скрины с кодом и результатом его выполнения:https: https://disk.yandex.ru/d/83ljw6TT0IhNgA
Команда: Магеррамов, Киселева, Колесников, Лапина
Работа с Yandex Speechkit. Cоздан платежный аккаунт, с помощью Windows PowerShell получен IAM-токен для дальнейшей работы с сервисом. На языке программирования python написана программа, позволяющая переводить полученный на вход текст в аудиофайл формата .raw. Планировалось внутри программы конвертировать формат .raw в .wav с помощью утилиты sox, рекомендуемой YandexCloud. По какой-то причине конвертация не работает, но для проверки результата была скачана сторонняя программа, позволяющая изменить формат и прослушать аудиозапись.
Код программы и рабочая аудиозапись по ссылке на диске: https://drive.google.com/drive/folders/1tMqvjJgG_8OG9VOKjp1BEZBrQ9CSR3eR?usp=sharing
Azure: проработаны обучающие видео по курсу машинного обучения в среде Azure
Проработаны большие данные (базы данных), такие как: Spark, Yarn, Cassandra и другие. Выявлены ряды плюсов и минусов каждой из баз данных (архитектурные особенности, компонентность, клиентоориентированность и, непосредственно, функционал)
Объектное хранилище: познакомились с облаком Sber Cloud. В S3 можно хранить данные в любом формате, будь то аудио или видео файлы, документы, электронные письма, персональные данные, резервные копии, образы виртуальных машин, данные для работы приложений, BigData и так далее. При этом данные хранятся в исходном формате, без каких-либо преобразований.
Стоит отметить, что данные в хранилище размещаются в виде объектов в плоском адресном пространстве (без иерархии) — это позволяет приложениям быстрее получать доступ к объектам и работать с хранилищем по протоколу HTTP/HTTPS, - несомненный плюс данной структуры.
Познакомились и проработали информацию о программном продукте Platform V Kafka, который предназначен для автоматизации развертывания, масштабирования контейнеризированных приложений и управления ими с использованием платформы Kubernetes путем предоставления REST API (то есть программный интерфейс приложений, описание способов для обмена данными между приложениями).
Об архитектурной организации сбербанка подробнее рассказал работник из данной организации. Глубже посвятил в структуру базы данных, рассказал подробнее о сервисах обработки и анализа больших данных, работающих на базе системы Apache Spark (Data Lake Insight (DLI)). Также был затронут MapReduce Service (MRS) — надежная, безопасная и простая в использовании платформа корпоративного уровня для хранения, обработки и анализа больших данных.
Успехи выполнения: