Кейс 7: Характеристика основных этапов процесса анализа данных

Last updated about 1 year ago
14 questions
Описание ситуации: Команда аналитиков компании «Технологии будущего» дала Вам профессиональный набор данных и попросила пройти полный цикл анализа данных — от их подготовки и исследования до построения простой предсказательной модели. Сотрудник отдела аналитики, Ирина, объяснила, что каждый этап анализа важен, так как помогает подготовить данные для более глубокого понимания и применения.
Она выделила основные этапы:
1. Подготовка данных — включает очистку и проверку данных на наличие дубликатов и пропусков.
2. Исследование и визуализация — анализ основных статистических показателей и визуализация взаимосвязей.
3. Построение предсказательной модели — простая модель для прогноза на основе данных.
4. Интерпретация результатов — оценка значимости результатов и выводы.
О работе с моделью машинного обучения
1. Подготовка данных для модели: Для построения модели мы выделяем целевую переменную (ту, которую будем предсказывать) и признаки (те, что будут использованы для предсказания). Данные разделяются на обучающую и тестовуювыборки с помощью train_test_split, чтобы на одном наборе данных обучить модель, а на другом — проверить её точность.
2. Обучение модели линейной регрессии:Линейная регрессия — это простой метод, который позволяет предсказать значение целевой переменной, основываясь на взаимосвязях с признаками. Мы создаем модель с помощью LinearRegression, обучаем её на данных с использованием метода .fit(), а затем используем .predict() для предсказаний.
3. Оценка модели: Для оценки модели используется метрика Mean Squared Error (MSE), которая показывает среднюю ошибку в прогнозах. Чем меньше значение MSE, тем точнее модель.
Проблемная ситуация: провести полный цикл анализа данных.
Исходные условия: Набор данных предоставлен в формате CSV и содержит данные о продажах и демографии. Работа выполняется в Jupyter Notebook.
Форма выполнения задания: Индивидуальная работа.
Программные инструменты для выполнения:
- Jupyter Notebook
- Язык программирования: Python
- Библиотеки: Pandas, Matplotlib, Seaborn, Scikit-Learn
Требования к результату выполнения задания: Файл .ipynb с выполненными заданиями, визуализациями, отчетом и интерпретацией результатов.
Создайте файл в Jupiter notebook, назовите его фамилия_№группы.
1

Выберите оценку проделанной работы:

Проверка пропущенных значений Проверьте данные на наличие пропущенных значений и устраните их.
Используйте .isnull().sum() для проверки пропущенных значений. Замените пропуски в числовых столбцах медианным значением (.fillna(df.median())), а в категориальных — наиболее частым значением.
1

Выберите оценку проделанной работы:

Вычисление средних значений Руководитель аналитического отдела просит вас вычислить средние значения для ключевых показателей.
Используйте метод .mean() для расчета среднего значения для каждого числового столбца, выведите результаты и сделайте краткие выводы о характере данных.
1

Выберите оценку проделанной работы:

Определение корреляции между показателями Постройте корреляционную матрицу, чтобы понять взаимосвязи между переменными.
Используйте .corr() для расчета корреляционной матрицы и визуализируйте ее с помощью sns.heatmap() (Seaborn). Определите, какие переменные наиболее связаны друг с другом.
1

Выберите оценку проделанной работы:

Создание визуализаций Для наглядности данных подготовьте гистограммы и диаграммы рассеяния по ключевым показателям.
Используйте plt.hist() для построения гистограммы и plt.scatter() для создания диаграммы рассеяния по нескольким показателям, чтобы увидеть распределение и взаимосвязи.
1

Выберите оценку проделанной работы:

Подготовка данных для модели Отдел аналитики просит подготовить данные для предсказательной модели и выделить целевую переменную.
Выберите целевую переменную и признаки для модели, разделите данные на обучающую и тестовую выборки, используя train_test_split из Scikit-Learn.
1

Выберите оценку проделанной работы:

Построение линейной модели Создайте простую модель линейной регрессии для прогноза значений целевой переменной.
Подключите LinearRegression из Scikit-Learn, создайте и обучите модель с помощью .fit(), используя обучающую выборку. Выполните прогноз на тестовой выборке и сохраните результаты.
1

Выберите оценку проделанной работы:

Оценка точности модели Используйте метрику MSE для оценки качества модели и уточните её значения.
Подключите mean_squared_error из Scikit-Learn и рассчитайте MSE для предсказаний на тестовой выборке. Выведите результаты и проанализируйте точность модели.
1

Выберите оценку проделанной работы:

Интерпретация результатов Сделайте выводы по значимости показателей и возможному влиянию факторов на прогноз.
Используя коэффициенты модели (model.coef_), определите значимость различных признаков для предсказания целевой переменной. Сделайте выводы о том, какие показатели наиболее значимы для анализа.
1

Выберите оценку проделанной работы:

Required
1

Загрузите файл с работой

Оцените свою работу с кейсом.
Следующий блок оценивается Вами и педагогом.
Required
1

1. Активность участия

Required
1

2. Решение проблем:

Required
1

3. Применения теоретических знаний

Required
1

4. Качество работы с кейсами