Описание ситуации: Команда аналитиков компании «Технологии будущего» дала Вам профессиональный набор данных и попросила пройти полный цикл анализа данных — от их подготовки и исследования до построения простой предсказательной модели. Сотрудник отдела аналитики, Ирина, объяснила, что каждый этап анализа важен, так как помогает подготовить данные для более глубокого понимания и применения.
Она выделила основные этапы:
1. Подготовка данных — включает очистку и проверку данных на наличие дубликатов и пропусков.
2. Исследование и визуализация — анализ основных статистических показателей и визуализация взаимосвязей.
3. Построение предсказательной модели — простая модель для прогноза на основе данных.
4. Интерпретация результатов — оценка значимости результатов и выводы.
О работе с моделью машинного обучения
1. Подготовка данных для модели: Для построения модели мы выделяем целевую переменную (ту, которую будем предсказывать) и признаки (те, что будут использованы для предсказания). Данные разделяются на обучающую и тестовуювыборки с помощью train_test_split, чтобы на одном наборе данных обучить модель, а на другом — проверить её точность.
2. Обучение модели линейной регрессии:Линейная регрессия — это простой метод, который позволяет предсказать значение целевой переменной, основываясь на взаимосвязях с признаками. Мы создаем модель с помощью LinearRegression, обучаем её на данных с использованием метода .fit(), а затем используем .predict() для предсказаний.
3. Оценка модели: Для оценки модели используется метрика Mean Squared Error (MSE), которая показывает среднюю ошибку в прогнозах. Чем меньше значение MSE, тем точнее модель.
Проблемная ситуация: провести полный цикл анализа данных.
Исходные условия: Набор данных предоставлен в формате CSV и содержит данные о продажах и демографии. Работа выполняется в Jupyter Notebook.
Форма выполнения задания: Индивидуальная работа.
Программные инструменты для выполнения:
- Язык программирования: Python
- Библиотеки: Pandas, Matplotlib, Seaborn, Scikit-Learn
Требования к результату выполнения задания:
Файл .ipynb с выполненными заданиями, визуализациями, отчетом и интерпретацией результатов.