Log in
Sign up for FREE
arrow_back
Library

Кейс 5: Описательная статистика и анализ данных в Python с использованием Pandas

star
star
star
star
star
Last updated over 1 year ago
24 questions
Required
1
1
1
1
1
Описание ситуации: На одной из встреч с аналитиком компании, Еленой, она рассказывает о важности описательной статистики в анализе данных. Елена объясняет, что описательная статистика позволяет получить ключевую информацию о данных, например, средние значения, разброс и частоту, чтобы быстро оценить общую картину.
"В описательной статистике мы часто используем такие показатели, как среднее арифметическое — усредненное значение набора данных, медиана— центральное значение в отсортированном наборе данных, и мода— наиболее часто встречающееся значение. Еще важны размах, показывающий диапазон значений, и стандартное отклонение, отражающее разброс данных относительно среднего. Все эти показатели можно вычислить с помощью библиотеки Pandas в Python."
Проблемная ситуация: у Вас совсем нет опыта в описательном анализе данных, и это необходимо исправить для дальнейшей работы.
Исходные условия: Данные предоставлены в формате CSV, включающие набор значений для анализа. Работа выполняется в Jupyter Notebook, каждое задание выполняется в отдельной ячейке.
Форма выполнения задания: Индивидуальная работа, самостоятельное выполнение задач.
Программные инструменты для выполнения:
- ПО: Jupyter Notebook
- Язык программирования: Python
- Библиотеки: Pandas
Требования к результату выполнения задания: Предоставить файл .ipynb с выполненными заданиями, комментариями и примерами вывода.
Создайте файл в Jupiter notebook, назовите его фамилия_№группы.
1
Загрузка данных: Загрузите набор данных из CSV-файла и отобразите первые 5 строк, чтобы убедиться в корректной загрузке.
Используйте pd.read_csv() для загрузки данных и метод .head() для вывода первых 5 строк.
1
Очистка данных от дубликатов: Проверьте данные на наличие дубликатов и удалите их, если они есть.
Используйте .duplicated().sum() для подсчета дубликатов и .drop_duplicates() для их удаления.
1
Проверка и обработка пустых значений: Проверьте данные на наличие пустых значений, а затем удалите или замените их, если они есть.
Используйте .isnull().sum() для проверки пустых значений и .fillna() или .dropna() для их обработки.
1
Подсчет частоты значений: Выберите один из категориальных столбцов и подсчитайте частоту каждого значения в этом столбце.
Используйте метод .value_counts() для подсчета частоты значений и выведите результат.
1
Среднее арифметическое: Найдите среднее арифметическое для одного из числовых столбцов данных.
Используйте метод .mean() для вычисления среднего арифметического и выведите результат.
1
Медиана: Определите медиану для одного из числовых столбцов.
Примените метод .median() для вычисления медианы и выведите результат.
1
Мода: Определите моду для выбранного столбца.
Используйте метод .mode() для нахождения моды и выведите результат.
1
Размах (максимум - минимум): Вычислите размах значений в выбранном числовом столбце.
Найдите минимум с помощью .min() и максимум с .max(), затем вычтите минимум из максимума.
1
Стандартное отклонение: Найдите стандартное отклонение для одного из числовых столбцов, чтобы определить разброс значений относительно среднего.
Используйте метод .std() для вычисления стандартного отклонения и выведите результат.
1
Коэффициент вариации: Рассчитайте коэффициент вариации, который показывает отношение стандартного отклонения к среднему значению.
Вычислите коэффициент вариации, поделив стандартное отклонение на среднее, и выведите результат в процентах.
1
Общая описательная статистика: Получите общую описательную статистику для числовых данных в DataFrame.
Примените метод .describe() для всех числовых столбцов и выведите результат.
1
Квантильное распределение: Найдите квантильные значения (25%, 50%, 75%) для одного из числовых столбцов, чтобы изучить распределение данных.
Используйте метод .quantile([0.25, 0.5, 0.75]) для расчета квартилей и выведите результат.
1
Выборка данных по условиям: Отфильтруйте данные, выбрав строки, где значение в одном из числовых столбцов превышает среднее значение.
Используйте условную фильтрацию и выведите результат.
1
Корреляция между столбцами: Вычислите корреляцию между двумя числовыми столбцами, чтобы понять, есть ли зависимость между ними.
Используйте метод .corr() и выведите результат для двух выбранных столбцов.
1
Построение распределения данных: Постройте гистограмму для одного из числовых столбцов, чтобы визуализировать распределение значений.
Используйте метод .hist() для построения гистограммы и проанализируйте распределение данных.
1
Определение выбросов: Используя метод межквартильного размаха, определите выбросы для одного из числовых столбцов.
Вычислите IQR и установите порог для выбросов: значения ниже (Q1 - 1.5 * IQR) и выше (Q3 + 1.5 * IQR). Выведите строки, содержащие выбросы.
1
Удаление выбросов: Удалите строки, содержащие выбросы, определенные в предыдущем задании, и отобразите размер очищенного набора данных.
Примените фильтрацию по условиям, исключая строки с выбросами, и выведите размер нового набора данных.
1
Финальный анализ и отчет: Создайте сводный отчет, включающий общую информацию по описательной статистике, количество строк до и после очистки, количество выбросов и основные наблюдения.
Соберите информацию по всем предыдущим показателям и отобразите её в виде итогового отчета (можно использовать текстовое описание или DataFrame).
1
Question 20
20.

Загрузите файл с работой

Оцените свою работу с кейсом.
Следующий блок оценивается Вами и педагогом.
Question 21
21.

Question 22
22.

Question 23
23.

Question 24
24.

Question 1
1.

Выберите оценку проделанной работы:

Question 2
2.

Выберите оценку проделанной работы:

Question 3
3.

Выберите оценку проделанной работы:

Question 4
4.

Выберите оценку проделанной работы:

Question 5
5.

Выберите оценку проделанной работы:

Question 6
6.

Выберите оценку проделанной работы:

Question 7
7.

Выберите оценку проделанной работы:

Question 8
8.

Выберите оценку проделанной работы:

Question 9
9.

Выберите оценку проделанной работы:

Question 10
10.

Выберите оценку проделанной работы:

Question 11
11.

Выберите оценку проделанной работы:

Question 12
12.

Выберите оценку проделанной работы:

Question 13
13.

Выберите оценку проделанной работы:

Question 14
14.

Выберите оценку проделанной работы:

Question 15
15.

Выберите оценку проделанной работы:

Question 16
16.

Выберите оценку проделанной работы:

Question 17
17.

Выберите оценку проделанной работы:

Question 18
18.

Выберите оценку проделанной работы:

Question 19
19.

1. Активность участия
0 баллов: редко участвует в обсуждениях и выполнении заданий, вносит минимальный вклад.
5 баллов: участвует в обсуждениях, вклад средний.
10 баллов: активно участвует в обсуждениях, вносит значительный вклад, проявляет инициативу.
2. Решение проблем:
0 баллов: Предложенные решения неэффективны или не соответствуют поставленным задачам.
5 балла: Решения частично эффективны, но требуют дополнительных обоснований и проработки.
10 баллов: Решения эффективны, логичны и полностью соответствуют задачам кейса.
3. Применения теоретических знаний
0 баллов: Теоретические концепции применяются некорректно или отсутствуют.
5 баллов: Теоретические концепции применяются, но есть неточности или недоработки.
10 баллов: Корректное и грамотное применение теоретических концепций, точное использование знаний.
4. Качество работы с кейсами
0 баллов: Анализ неполный, выводы поверхностные, отсутствие структурированного подхода.
5 баллов: Анализ достаточно глубокий, выводы частично обоснованы, подход структурирован, но требует уточнений.
10 баллов: Анализ всесторонний, выводы обоснованы, подход хорошо структурирован и аргументирован.
Выберите оценку проделанной работы:
15 баллов — сводный отчет сформирован
20 баллов – отчет содержит все выводы по работе (по каждому заданию)