Preskoči na glavni sadržaj
Prijava
Sign up for FREE
arrow_back
Biblioteka

Кейс 7: Характеристика основных этапов процесса анализа данных

star
star
star
star
star
Posljednje ažuriranje over 1 year ago
14
Obavezno
1

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

Obavezno
1
Obavezno
1
Obavezno
1
Obavezno
1

Описание ситуации: Команда аналитиков компании «Технологии будущего» дала Вам профессиональный набор данных и попросила пройти полный цикл анализа данных — от их подготовки и исследования до построения простой предсказательной модели. Сотрудник отдела аналитики, Ирина, объяснила, что каждый этап анализа важен, так как помогает подготовить данные для более глубокого понимания и применения.

Она выделила основные этапы:

1. Подготовка данных — включает очистку и проверку данных на наличие дубликатов и пропусков.

2. Исследование и визуализация — анализ основных статистических показателей и визуализация взаимосвязей.

3. Построение предсказательной модели — простая модель для прогноза на основе данных.

4. Интерпретация результатов — оценка значимости результатов и выводы.

О работе с моделью машинного обучения

1. Подготовка данных для модели: Для построения модели мы выделяем целевую переменную (ту, которую будем предсказывать) и признаки (те, что будут использованы для предсказания). Данные разделяются на обучающую и тестовуювыборки с помощью train_test_split, чтобы на одном наборе данных обучить модель, а на другом — проверить её точность.

2. Обучение модели линейной регрессии:Линейная регрессия — это простой метод, который позволяет предсказать значение целевой переменной, основываясь на взаимосвязях с признаками. Мы создаем модель с помощью LinearRegression, обучаем её на данных с использованием метода .fit(), а затем используем .predict() для предсказаний.

3. Оценка модели: Для оценки модели используется метрика Mean Squared Error (MSE), которая показывает среднюю ошибку в прогнозах. Чем меньше значение MSE, тем точнее модель.

Проблемная ситуация: провести полный цикл анализа данных.

Исходные условия: Набор данных предоставлен в формате CSV и содержит данные о продажах и демографии. Работа выполняется в Jupyter Notebook.

Форма выполнения задания: Индивидуальная работа.

Программные инструменты для выполнения:

- Jupyter Notebook

- Язык программирования: Python

- Библиотеки: Pandas, Matplotlib, Seaborn, Scikit-Learn

Требования к результату выполнения задания: Файл .ipynb с выполненными заданиями, визуализациями, отчетом и интерпретацией результатов.

Создайте файл в Jupiter notebook, назовите его фамилия_№группы.

1
Pitanje 1
1.

Выберите оценку проделанной работы:

Проверка пропущенных значений Проверьте данные на наличие пропущенных значений и устраните их.

Используйте .isnull().sum() для проверки пропущенных значений. Замените пропуски в числовых столбцах медианным значением (.fillna(df.median())), а в категориальных — наиболее частым значением.

1
Pitanje 2
2.

Выберите оценку проделанной работы:

Вычисление средних значений Руководитель аналитического отдела просит вас вычислить средние значения для ключевых показателей.

Используйте метод .mean() для расчета среднего значения для каждого числового столбца, выведите результаты и сделайте краткие выводы о характере данных.

1
Pitanje 3
3.

Выберите оценку проделанной работы:

Определение корреляции между показателями Постройте корреляционную матрицу, чтобы понять взаимосвязи между переменными.

Используйте .corr() для расчета корреляционной матрицы и визуализируйте ее с помощью sns.heatmap() (Seaborn). Определите, какие переменные наиболее связаны друг с другом.

1
Pitanje 4
4.

Выберите оценку проделанной работы:

Создание визуализаций Для наглядности данных подготовьте гистограммы и диаграммы рассеяния по ключевым показателям.

Используйте plt.hist() для построения гистограммы и plt.scatter() для создания диаграммы рассеяния по нескольким показателям, чтобы увидеть распределение и взаимосвязи.

1
Pitanje 5
5.

Выберите оценку проделанной работы:

Подготовка данных для модели Отдел аналитики просит подготовить данные для предсказательной модели и выделить целевую переменную.

Выберите целевую переменную и признаки для модели, разделите данные на обучающую и тестовую выборки, используя train_test_split из Scikit-Learn.

1
Pitanje 6
6.

Выберите оценку проделанной работы:

Построение линейной модели Создайте простую модель линейной регрессии для прогноза значений целевой переменной.

Подключите LinearRegression из Scikit-Learn, создайте и обучите модель с помощью .fit(), используя обучающую выборку. Выполните прогноз на тестовой выборке и сохраните результаты.

1
Pitanje 7
7.

Выберите оценку проделанной работы:

Оценка точности модели Используйте метрику MSE для оценки качества модели и уточните её значения.

Подключите mean_squared_error из Scikit-Learn и рассчитайте MSE для предсказаний на тестовой выборке. Выведите результаты и проанализируйте точность модели.

1
Pitanje 8
8.

Выберите оценку проделанной работы:

Интерпретация результатов Сделайте выводы по значимости показателей и возможному влиянию факторов на прогноз.

Используя коэффициенты модели (model.coef_), определите значимость различных признаков для предсказания целевой переменной. Сделайте выводы о том, какие показатели наиболее значимы для анализа.

1
Pitanje 9
9.

Выберите оценку проделанной работы:

Pitanje 10
10.

Загрузите файл с работой

Pitanje 11
11.

1. Активность участия

Pitanje 12
12.

2. Решение проблем:

Pitanje 13
13.

3. Применения теоретических знаний

Pitanje 14
14.

4. Качество работы с кейсами