Кейс 5: Описательная статистика и анализ данных в Python с использованием Pandas

Last updated about 1 year ago
24 questions
Описание ситуации: На одной из встреч с аналитиком компании, Еленой, она рассказывает о важности описательной статистики в анализе данных. Елена объясняет, что описательная статистика позволяет получить ключевую информацию о данных, например, средние значения, разброс и частоту, чтобы быстро оценить общую картину.
"В описательной статистике мы часто используем такие показатели, как среднее арифметическое — усредненное значение набора данных, медиана— центральное значение в отсортированном наборе данных, и мода— наиболее часто встречающееся значение. Еще важны размах, показывающий диапазон значений, и стандартное отклонение, отражающее разброс данных относительно среднего. Все эти показатели можно вычислить с помощью библиотеки Pandas в Python."
Проблемная ситуация: у Вас совсем нет опыта в описательном анализе данных, и это необходимо исправить для дальнейшей работы.
Исходные условия: Данные предоставлены в формате CSV, включающие набор значений для анализа. Работа выполняется в Jupyter Notebook, каждое задание выполняется в отдельной ячейке.
Форма выполнения задания: Индивидуальная работа, самостоятельное выполнение задач.
Программные инструменты для выполнения:
- ПО: Jupyter Notebook
- Язык программирования: Python
- Библиотеки: Pandas
Требования к результату выполнения задания: Предоставить файл .ipynb с выполненными заданиями, комментариями и примерами вывода.
Создайте файл в Jupiter notebook, назовите его фамилия_№группы.
1

Выберите оценку проделанной работы:

Загрузка данных: Загрузите набор данных из CSV-файла и отобразите первые 5 строк, чтобы убедиться в корректной загрузке.
Используйте pd.read_csv() для загрузки данных и метод .head() для вывода первых 5 строк.
1

Выберите оценку проделанной работы:

Очистка данных от дубликатов: Проверьте данные на наличие дубликатов и удалите их, если они есть.
Используйте .duplicated().sum() для подсчета дубликатов и .drop_duplicates() для их удаления.
1

Выберите оценку проделанной работы:

Проверка и обработка пустых значений: Проверьте данные на наличие пустых значений, а затем удалите или замените их, если они есть.
Используйте .isnull().sum() для проверки пустых значений и .fillna() или .dropna() для их обработки.
1

Выберите оценку проделанной работы:

Подсчет частоты значений: Выберите один из категориальных столбцов и подсчитайте частоту каждого значения в этом столбце.
Используйте метод .value_counts() для подсчета частоты значений и выведите результат.
1

Выберите оценку проделанной работы:

Среднее арифметическое: Найдите среднее арифметическое для одного из числовых столбцов данных.
Используйте метод .mean() для вычисления среднего арифметического и выведите результат.
1

Выберите оценку проделанной работы:

Медиана: Определите медиану для одного из числовых столбцов.
Примените метод .median() для вычисления медианы и выведите результат.
1

Выберите оценку проделанной работы:

Мода: Определите моду для выбранного столбца.
Используйте метод .mode() для нахождения моды и выведите результат.
1

Выберите оценку проделанной работы:

Размах (максимум - минимум): Вычислите размах значений в выбранном числовом столбце.
Найдите минимум с помощью .min() и максимум с .max(), затем вычтите минимум из максимума.
1

Выберите оценку проделанной работы:

Стандартное отклонение: Найдите стандартное отклонение для одного из числовых столбцов, чтобы определить разброс значений относительно среднего.
Используйте метод .std() для вычисления стандартного отклонения и выведите результат.
1

Выберите оценку проделанной работы:

Коэффициент вариации: Рассчитайте коэффициент вариации, который показывает отношение стандартного отклонения к среднему значению.
Вычислите коэффициент вариации, поделив стандартное отклонение на среднее, и выведите результат в процентах.
1

Выберите оценку проделанной работы:

Общая описательная статистика: Получите общую описательную статистику для числовых данных в DataFrame.
Примените метод .describe() для всех числовых столбцов и выведите результат.
1

Выберите оценку проделанной работы:

Квантильное распределение: Найдите квантильные значения (25%, 50%, 75%) для одного из числовых столбцов, чтобы изучить распределение данных.
Используйте метод .quantile([0.25, 0.5, 0.75]) для расчета квартилей и выведите результат.
1

Выберите оценку проделанной работы:

Выборка данных по условиям: Отфильтруйте данные, выбрав строки, где значение в одном из числовых столбцов превышает среднее значение.
Используйте условную фильтрацию и выведите результат.
1

Выберите оценку проделанной работы:

Корреляция между столбцами: Вычислите корреляцию между двумя числовыми столбцами, чтобы понять, есть ли зависимость между ними.
Используйте метод .corr() и выведите результат для двух выбранных столбцов.
1

Выберите оценку проделанной работы:

Построение распределения данных: Постройте гистограмму для одного из числовых столбцов, чтобы визуализировать распределение значений.
Используйте метод .hist() для построения гистограммы и проанализируйте распределение данных.
1

Выберите оценку проделанной работы:

Определение выбросов: Используя метод межквартильного размаха, определите выбросы для одного из числовых столбцов.
Вычислите IQR и установите порог для выбросов: значения ниже (Q1 - 1.5 * IQR) и выше (Q3 + 1.5 * IQR). Выведите строки, содержащие выбросы.
1

Выберите оценку проделанной работы:

Удаление выбросов: Удалите строки, содержащие выбросы, определенные в предыдущем задании, и отобразите размер очищенного набора данных.
Примените фильтрацию по условиям, исключая строки с выбросами, и выведите размер нового набора данных.
1

Выберите оценку проделанной работы:

Финальный анализ и отчет: Создайте сводный отчет, включающий общую информацию по описательной статистике, количество строк до и после очистки, количество выбросов и основные наблюдения.
Соберите информацию по всем предыдущим показателям и отобразите её в виде итогового отчета (можно использовать текстовое описание или DataFrame).
1

Выберите оценку проделанной работы:

Required
1

Загрузите файл с работой

Оцените свою работу с кейсом.
Следующий блок оценивается Вами и педагогом.
1

1. Активность участия

1

2. Решение проблем:

1

3. Применения теоретических знаний

1

4. Качество работы с кейсами