Кейс 4: Работа с большими данными и библиотекой Pandas в Python

Last updated over 1 year ago

22 Nsɛmmisa

Ɛhia

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

Кейс 4: Работа с большими данными и библиотекой Pandas в Python

Last updated over 1 year ago

22 Nsɛmmisa

Описание ситуации: Вы продолжаете работу в компании "Технологии будущего". На одном из утренних совещаний аналитик компании, Иван, рассказал вам о работе с большими данными и объяснил, что для эффективного анализа используется библиотека Pandas, которая помогает загружать, обрабатывать и анализировать большие массивы данных.

"Pandas предоставляет два основных объекта для работы с данными: Seriesи DataFrame. Series— это одномерная структура данных, напоминающая колонку в таблице или массив. DataFrame— это двумерная структура, как таблица, где каждая колонка может хранить данные разного типа. DataFrame особенно удобен, когда работаешь с большими данными, ведь он позволяет легко фильтровать, группировать и преобразовывать данные. Мы используем платформу Kaggle для загрузки наборов данных, так как там доступны огромные и разнообразные наборы данных для анализа."

Проблемная ситуация: Вам предстоит применить Pandas для обработки данных: загрузить их, очистить от дубликатов и пустых значений, получить основную информацию и провести индексацию по условиям.

Исходные условия: Данные предоставлены в формате CSV, загруженные из Kaggle. Работа выполняется в Jupyter Notebook, каждое задание выполняется в отдельной ячейке.

Форма выполнения задания: Индивидуальная работа.

Программные инструменты для выполнения:

- ПО: Jupyter Notebook

- Язык программирования: Python

- Библиотеки: Pandas

Требования к результату выполнения задания: Предоставить файл .ipynb с выполненными заданиями, комментариями и примерами вывода.

Создайте файл в Jupiter notebook, назовите его фамилия_№группы.

Выберите оценку проделанной работы:

5 баллов – файл назван корректно

Запрос от отдела IT: "Мы подключили новый источник данных в формате CSV. Можешь загрузить данные и показать их первые строки, чтобы мы могли убедиться, что все загружено корректно?"

Используйте pd.read_csv() для загрузки данных и метод .head() для вывода первых 5 строк.

Выберите оценку проделанной работы:

5 баллов — данные загружены и выведены

Запрос от отдела аналитики: "Для анализа нам нужно общее представление о структуре данных. Покажите типы данных и количество строк и столбцов."

Используйте метод .info() для вывода информации о типах данных и размере DataFrame.

Выберите оценку проделанной работы:

5 баллов — информация о данных получена

Запрос от отдела финансов: "Нам нужно увидеть основные показатели — средние, медианы и т.д., по числовым данным. Можете вывести общую статистику?"

Примените метод .describe() для вывода статистики по числовым столбцам.

Выберите оценку проделанной работы:

5 баллов — описательная статистика выведена

Запрос от отдела HR: "Можешь проверить, есть ли в наборе данных пустые значения, прежде чем мы начнем анализ?"

Используйте метод .isnull().sum() для подсчета пустых значений в каждом столбце и выведите результат.

Выберите оценку проделанной работы:

5 баллов — пустые значения подсчитаны

Запрос от отдела контроля качества: "Нам нужно убрать все дубликаты в наборе данных, чтобы получить точные результаты анализа. Сможешь это сделать?"

Используйте метод .drop_duplicates() и выведите размер данных до и после удаления дубликатов с помощью .shape.

Выберите оценку проделанной работы:

10 баллов — дубликаты удалены.

15 баллов – дубликаты удалены и размер данных выведен

Запрос от отдела поддержки: "Некоторые строки данных пустые, но важные. Удалите их, пожалуйста, чтобы нам было проще работать."

Используйте метод .dropna() для удаления строк с пустыми значениями и выведите размер DataFrame после очистки.

Выберите оценку проделанной работы:

10 баллов — пропуски удалены

15 баллов – пропуски удалены и выведен размер после очистки

Запрос от отдела продаж: "Нам нужно заменить пустые значения в одном из столбцов на среднее значение. Это поможет нам сократить количество пропусков."

Используйте метод .fillna() и функцию .mean() для замены пустых значений средним значением столбца.

Выберите оценку проделанной работы:

10 баллов — пропуски заменены корректно

Запрос от отдела маркетинга: "Можешь извлечь данные о клиентах, но только с определенного столбца? Покажите первые несколько значений."

Используйте синтаксис df['column_name'] для извлечения Series и метод .head() для вывода первых 10 значений.

Выберите оценку проделанной работы:

5 баллов — Series извлечен и выведен

Запрос от отдела исследований: "Для упрощения анализа нам нужно установить новый индекс для таблицы, чтобы было удобнее обращаться к строкам."

Примените метод .set_index('column_name') для изменения индекса и выведите первые 5 строк для проверки.

Выберите оценку проделанной работы:

5 баллов — индексация выполнена

Запрос от отдела аналитики: "Нам нужно понять, какие уникальные значения есть в данных. Это поможет нам с сегментацией клиентов."

Примените методы .unique() и .nunique() для получения списка уникальных значений и их количества.

Выберите оценку проделанной работы:

5 баллов — уникальные значения получены

10 баллов – получены уникальные значения и их количество

Запрос от отдела отчетности: "Нам нужен отчет по средней продажной цене в зависимости от типа товара. Можете создать сводный отчет по средним значениям?"

Используйте метод .groupby('column').mean() для выполнения группировки и расчета среднего значения.

Выберите оценку проделанной работы:

10 баллов — группировка выполнена

Запрос от руководителя: "Создайте сводный отчет по минимальным, максимальным и средним значениям ключевых показателей."

Примените метод .agg({'column': ['min', 'max', 'mean']}) для выполнения агрегации по заданным столбцам.

Выберите оценку проделанной работы:

10 баллов — агрегация данных выполнена полностью

Запрос от отдела логистики: "Нам нужно извлечь определенные строки по индексам. Можете вывести строки данных, используя их индекс?"

Используйте .iloc[] или .loc[] для выбора строки по индексу и выведите результат.

Выберите оценку проделанной работы:

5 баллов — выборка по индексу выполнена

Запрос от финансового отдела: "Можешь увеличить значения в одном из столбцов на 10%, чтобы учесть инфляцию? Это поможет нам с анализом."

Используйте оператор *= для увеличения значений в столбце на 10% и выведите измененные данные.

Выберите оценку проделанной работы:

10 баллов — данные изменены

Запрос от отдела продаж: "Создайте сводную таблицу, которая покажет сумму продаж по регионам, чтобы мы могли определить самые продуктивные регионы."

Используйте метод .pivot_table(values='column', index='group_column', aggfunc='sum') для создания сводной таблицы и выведите результат.

Выберите оценку проделанной работы:

10 баллов — сводная таблица создана

Финальное задание от руководителя отдела аналитики: «Подготовьте отчет»

Используйте методы Pandas для подсчета строк до и после очистки, получения уникальных значений и основных статистических показателей. Соберите отчет в виде текста или DataFrame.

Выберите оценку проделанной работы:

15 баллов — отчет сформирован корректно

Ɛhia

Загрузите файл с работой

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

1. Активность участия

0 баллов: редко участвует в обсуждениях и выполнении заданий, вносит минимальный вклад.

5 баллов: участвует в обсуждениях, вклад средний.

10 баллов: активно участвует в обсуждениях, вносит значительный вклад, проявляет инициативу.

2. Решение проблем:

0 баллов: Предложенные решения неэффективны или не соответствуют поставленным задачам.

5 балла: Решения частично эффективны, но требуют дополнительных обоснований и проработки.

10 баллов: Решения эффективны, логичны и полностью соответствуют задачам кейса.

3. Применения теоретических знаний

0 баллов: Теоретические концепции применяются некорректно или отсутствуют.

5 баллов: Теоретические концепции применяются, но есть неточности или недоработки.

10 баллов: Корректное и грамотное применение теоретических концепций, точное использование знаний.

4. Качество работы с кейсами

0 баллов: Анализ неполный, выводы поверхностные, отсутствие структурированного подхода.

5 баллов: Анализ достаточно глубокий, выводы частично обоснованы, подход структурирован, но требует уточнений.

10 баллов: Анализ всесторонний, выводы обоснованы, подход хорошо структурирован и аргументирован.