Log in
Sign up for FREE
arrow_back
Library

Кейс 7: Характеристика основных этапов процесса анализа данных

star
star
star
star
star
Last updated over 1 year ago
14 questions
Required
1
Required
1
Required
1
Required
1
Required
1
Создайте файл в Jupiter notebook, назовите его фамилия_№группы.
1
Проверка пропущенных значений Проверьте данные на наличие пропущенных значений и устраните их.
Используйте .isnull().sum() для проверки пропущенных значений. Замените пропуски в числовых столбцах медианным значением (.fillna(df.median())), а в категориальных — наиболее частым значением.
1
Вычисление средних значений Руководитель аналитического отдела просит вас вычислить средние значения для ключевых показателей.
Используйте метод .mean() для расчета среднего значения для каждого числового столбца, выведите результаты и сделайте краткие выводы о характере данных.
1
Определение корреляции между показателями Постройте корреляционную матрицу, чтобы понять взаимосвязи между переменными.
Используйте .corr() для расчета корреляционной матрицы и визуализируйте ее с помощью sns.heatmap() (Seaborn). Определите, какие переменные наиболее связаны друг с другом.
1
Создание визуализаций Для наглядности данных подготовьте гистограммы и диаграммы рассеяния по ключевым показателям.
Используйте plt.hist() для построения гистограммы и plt.scatter() для создания диаграммы рассеяния по нескольким показателям, чтобы увидеть распределение и взаимосвязи.
1
Подготовка данных для модели Отдел аналитики просит подготовить данные для предсказательной модели и выделить целевую переменную.
Выберите целевую переменную и признаки для модели, разделите данные на обучающую и тестовую выборки, используя train_test_split из Scikit-Learn.
1
Построение линейной модели Создайте простую модель линейной регрессии для прогноза значений целевой переменной.
Подключите LinearRegression из Scikit-Learn, создайте и обучите модель с помощью .fit(), используя обучающую выборку. Выполните прогноз на тестовой выборке и сохраните результаты.
1
Оценка точности модели Используйте метрику MSE для оценки качества модели и уточните её значения.
Подключите mean_squared_error из Scikit-Learn и рассчитайте MSE для предсказаний на тестовой выборке. Выведите результаты и проанализируйте точность модели.
1
Интерпретация результатов Сделайте выводы по значимости показателей и возможному влиянию факторов на прогноз.
Используя коэффициенты модели (model.coef_), определите значимость различных признаков для предсказания целевой переменной. Сделайте выводы о том, какие показатели наиболее значимы для анализа.
1
Question 10
10.

Загрузите файл с работой

Оцените свою работу с кейсом.
Следующий блок оценивается Вами и педагогом.
Question 11
11.

Question 12
12.

Question 13
13.

Question 14
14.

Описание ситуации: Команда аналитиков компании «Технологии будущего» дала Вам профессиональный набор данных и попросила пройти полный цикл анализа данных — от их подготовки и исследования до построения простой предсказательной модели. Сотрудник отдела аналитики, Ирина, объяснила, что каждый этап анализа важен, так как помогает подготовить данные для более глубокого понимания и применения.
Она выделила основные этапы:
1. Подготовка данных — включает очистку и проверку данных на наличие дубликатов и пропусков.
2. Исследование и визуализация — анализ основных статистических показателей и визуализация взаимосвязей.
3. Построение предсказательной модели — простая модель для прогноза на основе данных.
4. Интерпретация результатов — оценка значимости результатов и выводы.
О работе с моделью машинного обучения
1. Подготовка данных для модели: Для построения модели мы выделяем целевую переменную (ту, которую будем предсказывать) и признаки (те, что будут использованы для предсказания). Данные разделяются на обучающую и тестовуювыборки с помощью train_test_split, чтобы на одном наборе данных обучить модель, а на другом — проверить её точность.
2. Обучение модели линейной регрессии:Линейная регрессия — это простой метод, который позволяет предсказать значение целевой переменной, основываясь на взаимосвязях с признаками. Мы создаем модель с помощью LinearRegression, обучаем её на данных с использованием метода .fit(), а затем используем .predict() для предсказаний.
3. Оценка модели: Для оценки модели используется метрика Mean Squared Error (MSE), которая показывает среднюю ошибку в прогнозах. Чем меньше значение MSE, тем точнее модель.
Проблемная ситуация: провести полный цикл анализа данных.
Исходные условия: Набор данных предоставлен в формате CSV и содержит данные о продажах и демографии. Работа выполняется в Jupyter Notebook.
Форма выполнения задания: Индивидуальная работа.
Программные инструменты для выполнения:
- Jupyter Notebook
- Язык программирования: Python
- Библиотеки: Pandas, Matplotlib, Seaborn, Scikit-Learn
Требования к результату выполнения задания: Файл .ipynb с выполненными заданиями, визуализациями, отчетом и интерпретацией результатов.
Question 1
1.

Выберите оценку проделанной работы:

Question 2
2.

Question 3
3.

Question 4
4.

Выберите оценку проделанной работы:

Question 5
5.

Question 6
6.

Выберите оценку проделанной работы:

Question 7
7.

Question 8
8.

Question 9
9.

1. Активность участия
0 баллов: редко участвует в обсуждениях и выполнении заданий, вносит минимальный вклад.
5 баллов: участвует в обсуждениях, вклад средний.
10 баллов: активно участвует в обсуждениях, вносит значительный вклад, проявляет инициативу.
2. Решение проблем:
0 баллов: Предложенные решения неэффективны или не соответствуют поставленным задачам.
5 балла: Решения частично эффективны, но требуют дополнительных обоснований и проработки.
10 баллов: Решения эффективны, логичны и полностью соответствуют задачам кейса.
3. Применения теоретических знаний
0 баллов: Теоретические концепции применяются некорректно или отсутствуют.
5 баллов: Теоретические концепции применяются, но есть неточности или недоработки.
10 баллов: Корректное и грамотное применение теоретических концепций, точное использование знаний.
4. Качество работы с кейсами
0 баллов: Анализ неполный, выводы поверхностные, отсутствие структурированного подхода.
5 баллов: Анализ достаточно глубокий, выводы частично обоснованы, подход структурирован, но требует уточнений.
10 баллов: Анализ всесторонний, выводы обоснованы, подход хорошо структурирован и аргументирован.
Выберите оценку проделанной работы:
10 баллов – произведена замена пропусков
20 баллов – корректно произведена замена пропусков
Выберите оценку проделанной работы:
5 баллов – подсчитано среднее
10 баллов – подсчитано среднее и описаны выводы
Выберите оценку проделанной работы:
10 баллов – построена гистограмма.
15 баллов – построена гистограмма и диаграмма рассеяния
Выберите оценку проделанной работы:
20 баллов – модель создана
25 баллов – выполнен прогноз на тестовой выборке
Выберите оценку проделанной работы:
10 баллов MSE – рассчитан
25 – проанализирована точность модели
Выберите оценку проделанной работы:
10 баллов – определена значимость признаков
25 баллов – определена значимость признаков и сделаны выводы