Кейс 7: Характеристика основных этапов процесса анализа данных

Last updated over 1 year ago

14 Nsɛmmisa

Ɛhia

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

Ɛhia

Кейс 7: Характеристика основных этапов процесса анализа данных

Last updated over 1 year ago

14 Nsɛmmisa

Описание ситуации: Команда аналитиков компании «Технологии будущего» дала Вам профессиональный набор данных и попросила пройти полный цикл анализа данных — от их подготовки и исследования до построения простой предсказательной модели. Сотрудник отдела аналитики, Ирина, объяснила, что каждый этап анализа важен, так как помогает подготовить данные для более глубокого понимания и применения.

Она выделила основные этапы:

1. Подготовка данных — включает очистку и проверку данных на наличие дубликатов и пропусков.

2. Исследование и визуализация — анализ основных статистических показателей и визуализация взаимосвязей.

3. Построение предсказательной модели — простая модель для прогноза на основе данных.

4. Интерпретация результатов — оценка значимости результатов и выводы.

О работе с моделью машинного обучения

1. Подготовка данных для модели: Для построения модели мы выделяем целевую переменную (ту, которую будем предсказывать) и признаки (те, что будут использованы для предсказания). Данные разделяются на обучающую и тестовуювыборки с помощью train_test_split, чтобы на одном наборе данных обучить модель, а на другом — проверить её точность.

2. Обучение модели линейной регрессии:Линейная регрессия — это простой метод, который позволяет предсказать значение целевой переменной, основываясь на взаимосвязях с признаками. Мы создаем модель с помощью LinearRegression, обучаем её на данных с использованием метода .fit(), а затем используем .predict() для предсказаний.

3. Оценка модели: Для оценки модели используется метрика Mean Squared Error (MSE), которая показывает среднюю ошибку в прогнозах. Чем меньше значение MSE, тем точнее модель.

Проблемная ситуация: провести полный цикл анализа данных.

Исходные условия: Набор данных предоставлен в формате CSV и содержит данные о продажах и демографии. Работа выполняется в Jupyter Notebook.

Форма выполнения задания: Индивидуальная работа.

Программные инструменты для выполнения:

- Jupyter Notebook

- Язык программирования: Python

- Библиотеки: Pandas, Matplotlib, Seaborn, Scikit-Learn

Требования к результату выполнения задания: Файл .ipynb с выполненными заданиями, визуализациями, отчетом и интерпретацией результатов.

Создайте файл в Jupiter notebook, назовите его фамилия_№группы.

Выберите оценку проделанной работы:

5 баллов – файл назван корректно

Проверка пропущенных значений Проверьте данные на наличие пропущенных значений и устраните их.

Используйте .isnull().sum() для проверки пропущенных значений. Замените пропуски в числовых столбцах медианным значением (.fillna(df.median())), а в категориальных — наиболее частым значением.

Выберите оценку проделанной работы:

10 баллов – произведена замена пропусков

20 баллов – корректно произведена замена пропусков

Вычисление средних значений Руководитель аналитического отдела просит вас вычислить средние значения для ключевых показателей.

Используйте метод .mean() для расчета среднего значения для каждого числового столбца, выведите результаты и сделайте краткие выводы о характере данных.

Выберите оценку проделанной работы:

5 баллов – подсчитано среднее

10 баллов – подсчитано среднее и описаны выводы

Определение корреляции между показателями Постройте корреляционную матрицу, чтобы понять взаимосвязи между переменными.

Используйте .corr() для расчета корреляционной матрицы и визуализируйте ее с помощью sns.heatmap() (Seaborn). Определите, какие переменные наиболее связаны друг с другом.

Выберите оценку проделанной работы:

10 баллов – определены связанные переменные

Создание визуализаций Для наглядности данных подготовьте гистограммы и диаграммы рассеяния по ключевым показателям.

Используйте plt.hist() для построения гистограммы и plt.scatter() для создания диаграммы рассеяния по нескольким показателям, чтобы увидеть распределение и взаимосвязи.

Выберите оценку проделанной работы:

10 баллов – построена гистограмма.

15 баллов – построена гистограмма и диаграмма рассеяния

Подготовка данных для модели Отдел аналитики просит подготовить данные для предсказательной модели и выделить целевую переменную.

Выберите целевую переменную и признаки для модели, разделите данные на обучающую и тестовую выборки, используя train_test_split из Scikit-Learn.

Выберите оценку проделанной работы:

10 баллов – выбраны и описаны целевая переменная и признаки для модели

Построение линейной модели Создайте простую модель линейной регрессии для прогноза значений целевой переменной.

Подключите LinearRegression из Scikit-Learn, создайте и обучите модель с помощью .fit(), используя обучающую выборку. Выполните прогноз на тестовой выборке и сохраните результаты.

Выберите оценку проделанной работы:

20 баллов – модель создана

25 баллов – выполнен прогноз на тестовой выборке

Оценка точности модели Используйте метрику MSE для оценки качества модели и уточните её значения.

Подключите mean_squared_error из Scikit-Learn и рассчитайте MSE для предсказаний на тестовой выборке. Выведите результаты и проанализируйте точность модели.

Выберите оценку проделанной работы:

10 баллов MSE – рассчитан

25 – проанализирована точность модели

Интерпретация результатов Сделайте выводы по значимости показателей и возможному влиянию факторов на прогноз.

Используя коэффициенты модели (model.coef_), определите значимость различных признаков для предсказания целевой переменной. Сделайте выводы о том, какие показатели наиболее значимы для анализа.

Выберите оценку проделанной работы:

10 баллов – определена значимость признаков

25 баллов – определена значимость признаков и сделаны выводы

Ɛhia

Загрузите файл с работой

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

Ɛhia

1. Активность участия

0 баллов: редко участвует в обсуждениях и выполнении заданий, вносит минимальный вклад.

5 баллов: участвует в обсуждениях, вклад средний.

10 баллов: активно участвует в обсуждениях, вносит значительный вклад, проявляет инициативу.

Ɛhia

2. Решение проблем:

0 баллов: Предложенные решения неэффективны или не соответствуют поставленным задачам.

5 балла: Решения частично эффективны, но требуют дополнительных обоснований и проработки.

10 баллов: Решения эффективны, логичны и полностью соответствуют задачам кейса.

Ɛhia

3. Применения теоретических знаний

0 баллов: Теоретические концепции применяются некорректно или отсутствуют.

5 баллов: Теоретические концепции применяются, но есть неточности или недоработки.

10 баллов: Корректное и грамотное применение теоретических концепций, точное использование знаний.

Ɛhia

4. Качество работы с кейсами

0 баллов: Анализ неполный, выводы поверхностные, отсутствие структурированного подхода.

5 баллов: Анализ достаточно глубокий, выводы частично обоснованы, подход структурирован, но требует уточнений.

10 баллов: Анализ всесторонний, выводы обоснованы, подход хорошо структурирован и аргументирован.