Кейс 4: Работа с большими данными и библиотекой Pandas в Python
star
star
star
star
star
Last updated about 1 year ago
22 questions
Создайте файл в Jupiter notebook, назовите его фамилия_№группы.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела IT: "Мы подключили новый источник данных в формате CSV. Можешь загрузить данные и показать их первые строки, чтобы мы могли убедиться, что все загружено корректно?"
Используйте pd.read_csv() для загрузки данных и метод .head() для вывода первых 5 строк.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела аналитики: "Для анализа нам нужно общее представление о структуре данных. Покажите типы данных и количество строк и столбцов."
Используйте метод .info() для вывода информации о типах данных и размере DataFrame.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела финансов: "Нам нужно увидеть основные показатели — средние, медианы и т.д., по числовым данным. Можете вывести общую статистику?"
Примените метод .describe() для вывода статистики по числовым столбцам.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела HR: "Можешь проверить, есть ли в наборе данных пустые значения, прежде чем мы начнем анализ?"
Используйте метод .isnull().sum() для подсчета пустых значений в каждом столбце и выведите результат.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела контроля качества: "Нам нужно убрать все дубликаты в наборе данных, чтобы получить точные результаты анализа. Сможешь это сделать?"
Используйте метод .drop_duplicates() и выведите размер данных до и после удаления дубликатов с помощью .shape.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела поддержки: "Некоторые строки данных пустые, но важные. Удалите их, пожалуйста, чтобы нам было проще работать."
Используйте метод .dropna() для удаления строк с пустыми значениями и выведите размер DataFrame после очистки.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела продаж: "Нам нужно заменить пустые значения в одном из столбцов на среднее значение. Это поможет нам сократить количество пропусков."
Используйте метод .fillna() и функцию .mean() для замены пустых значений средним значением столбца.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела маркетинга: "Можешь извлечь данные о клиентах, но только с определенного столбца? Покажите первые несколько значений."
Используйте синтаксис df['column_name'] для извлечения Series и метод .head() для вывода первых 10 значений.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела исследований: "Для упрощения анализа нам нужно установить новый индекс для таблицы, чтобы было удобнее обращаться к строкам."
Примените метод .set_index('column_name') для изменения индекса и выведите первые 5 строк для проверки.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела аналитики: "Нам нужно понять, какие уникальные значения есть в данных. Это поможет нам с сегментацией клиентов."
Примените методы .unique() и .nunique() для получения списка уникальных значений и их количества.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела отчетности: "Нам нужен отчет по средней продажной цене в зависимости от типа товара. Можете создать сводный отчет по средним значениям?"
Используйте метод .groupby('column').mean() для выполнения группировки и расчета среднего значения.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от руководителя: "Создайте сводный отчет по минимальным, максимальным и средним значениям ключевых показателей."
Примените метод .agg({'column': ['min', 'max', 'mean']}) для выполнения агрегации по заданным столбцам.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела логистики: "Нам нужно извлечь определенные строки по индексам. Можете вывести строки данных, используя их индекс?"
Используйте .iloc[] или .loc[] для выбора строки по индексу и выведите результат.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от финансового отдела: "Можешь увеличить значения в одном из столбцов на 10%, чтобы учесть инфляцию? Это поможет нам с анализом."
Используйте оператор *= для увеличения значений в столбце на 10% и выведите измененные данные.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Запрос от отдела продаж: "Создайте сводную таблицу, которая покажет сумму продаж по регионам, чтобы мы могли определить самые продуктивные регионы."
Используйте метод .pivot_table(values='column', index='group_column', aggfunc='sum') для создания сводной таблицы и выведите результат.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Финальное задание от руководителя отдела аналитики: «Подготовьте отчет»
Используйте методы Pandas для подсчета строк до и после очистки, получения уникальных значений и основных статистических показателей. Соберите отчет в виде текста или DataFrame.
1
Выберите оценку проделанной работы:
Выберите оценку проделанной работы:
Required
1
Загрузите файл с работой
Загрузите файл с работой
1
1. Активность участия
1. Активность участия
1
2. Решение проблем:
2. Решение проблем:
1
3. Применения теоретических знаний
3. Применения теоретических знаний
1
4. Качество работы с кейсами
4. Качество работы с кейсами