Preskoči na glavni sadržaj
Prijava
Sign up for FREE
arrow_back
Biblioteka

Кейс 5: Описательная статистика и анализ данных в Python с использованием Pandas

star
star
star
star
star
Posljednje ažuriranje over 1 year ago
24 questions
Obavezno
1

Оцените свою работу с кейсом.

Следующий блок оценивается Вами и педагогом.

1
1
1
1

Описание ситуации: На одной из встреч с аналитиком компании, Еленой, она рассказывает о важности описательной статистики в анализе данных. Елена объясняет, что описательная статистика позволяет получить ключевую информацию о данных, например, средние значения, разброс и частоту, чтобы быстро оценить общую картину.

"В описательной статистике мы часто используем такие показатели, как среднее арифметическое — усредненное значение набора данных, медиана— центральное значение в отсортированном наборе данных, и мода— наиболее часто встречающееся значение. Еще важны размах, показывающий диапазон значений, и стандартное отклонение, отражающее разброс данных относительно среднего. Все эти показатели можно вычислить с помощью библиотеки Pandas в Python."

Проблемная ситуация: у Вас совсем нет опыта в описательном анализе данных, и это необходимо исправить для дальнейшей работы.

Исходные условия: Данные предоставлены в формате CSV, включающие набор значений для анализа. Работа выполняется в Jupyter Notebook, каждое задание выполняется в отдельной ячейке.

Форма выполнения задания: Индивидуальная работа, самостоятельное выполнение задач.

Программные инструменты для выполнения:

- ПО: Jupyter Notebook

- Язык программирования: Python

- Библиотеки: Pandas

Требования к результату выполнения задания: Предоставить файл .ipynb с выполненными заданиями, комментариями и примерами вывода.

Создайте файл в Jupiter notebook, назовите его фамилия_№группы.

1
Pitanje 1
1.

Выберите оценку проделанной работы:

Загрузка данных: Загрузите набор данных из CSV-файла и отобразите первые 5 строк, чтобы убедиться в корректной загрузке.

Используйте pd.read_csv() для загрузки данных и метод .head() для вывода первых 5 строк.

1
Pitanje 2
2.

Выберите оценку проделанной работы:

Очистка данных от дубликатов: Проверьте данные на наличие дубликатов и удалите их, если они есть.

Используйте .duplicated().sum() для подсчета дубликатов и .drop_duplicates() для их удаления.

1
Pitanje 3
3.

Выберите оценку проделанной работы:

Проверка и обработка пустых значений: Проверьте данные на наличие пустых значений, а затем удалите или замените их, если они есть.

Используйте .isnull().sum() для проверки пустых значений и .fillna() или .dropna() для их обработки.

1
Pitanje 4
4.

Выберите оценку проделанной работы:

Подсчет частоты значений: Выберите один из категориальных столбцов и подсчитайте частоту каждого значения в этом столбце.

Используйте метод .value_counts() для подсчета частоты значений и выведите результат.

1
Pitanje 5
5.

Выберите оценку проделанной работы:

Среднее арифметическое: Найдите среднее арифметическое для одного из числовых столбцов данных.

Используйте метод .mean() для вычисления среднего арифметического и выведите результат.

1
Pitanje 6
6.

Выберите оценку проделанной работы:

Медиана: Определите медиану для одного из числовых столбцов.

Примените метод .median() для вычисления медианы и выведите результат.

1
Pitanje 7
7.

Выберите оценку проделанной работы:

Мода: Определите моду для выбранного столбца.

Используйте метод .mode() для нахождения моды и выведите результат.

1
Pitanje 8
8.

Выберите оценку проделанной работы:

Размах (максимум - минимум): Вычислите размах значений в выбранном числовом столбце.

Найдите минимум с помощью .min() и максимум с .max(), затем вычтите минимум из максимума.

1
Pitanje 9
9.

Выберите оценку проделанной работы:

Стандартное отклонение: Найдите стандартное отклонение для одного из числовых столбцов, чтобы определить разброс значений относительно среднего.

Используйте метод .std() для вычисления стандартного отклонения и выведите результат.

1
Pitanje 10
10.

Выберите оценку проделанной работы:

Коэффициент вариации: Рассчитайте коэффициент вариации, который показывает отношение стандартного отклонения к среднему значению.

Вычислите коэффициент вариации, поделив стандартное отклонение на среднее, и выведите результат в процентах.

1
Pitanje 11
11.

Выберите оценку проделанной работы:

Общая описательная статистика: Получите общую описательную статистику для числовых данных в DataFrame.

Примените метод .describe() для всех числовых столбцов и выведите результат.

1
Pitanje 12
12.

Выберите оценку проделанной работы:

Квантильное распределение: Найдите квантильные значения (25%, 50%, 75%) для одного из числовых столбцов, чтобы изучить распределение данных.

Используйте метод .quantile([0.25, 0.5, 0.75]) для расчета квартилей и выведите результат.

1
Pitanje 13
13.

Выберите оценку проделанной работы:

Выборка данных по условиям: Отфильтруйте данные, выбрав строки, где значение в одном из числовых столбцов превышает среднее значение.

Используйте условную фильтрацию и выведите результат.

1
Pitanje 14
14.

Выберите оценку проделанной работы:

Корреляция между столбцами: Вычислите корреляцию между двумя числовыми столбцами, чтобы понять, есть ли зависимость между ними.

Используйте метод .corr() и выведите результат для двух выбранных столбцов.

1
Pitanje 15
15.

Выберите оценку проделанной работы:

Построение распределения данных: Постройте гистограмму для одного из числовых столбцов, чтобы визуализировать распределение значений.

Используйте метод .hist() для построения гистограммы и проанализируйте распределение данных.

1
Pitanje 16
16.

Выберите оценку проделанной работы:

Определение выбросов: Используя метод межквартильного размаха, определите выбросы для одного из числовых столбцов.

Вычислите IQR и установите порог для выбросов: значения ниже (Q1 - 1.5 * IQR) и выше (Q3 + 1.5 * IQR). Выведите строки, содержащие выбросы.

1
Pitanje 17
17.

Выберите оценку проделанной работы:

Удаление выбросов: Удалите строки, содержащие выбросы, определенные в предыдущем задании, и отобразите размер очищенного набора данных.

Примените фильтрацию по условиям, исключая строки с выбросами, и выведите размер нового набора данных.

1
Pitanje 18
18.

Выберите оценку проделанной работы:

Финальный анализ и отчет: Создайте сводный отчет, включающий общую информацию по описательной статистике, количество строк до и после очистки, количество выбросов и основные наблюдения.

Соберите информацию по всем предыдущим показателям и отобразите её в виде итогового отчета (можно использовать текстовое описание или DataFrame).

1
Pitanje 19
19.

Выберите оценку проделанной работы:

Pitanje 20
20.

Загрузите файл с работой

Pitanje 21
21.

1. Активность участия

Pitanje 22
22.

2. Решение проблем:

Pitanje 23
23.

3. Применения теоретических знаний

Pitanje 24
24.

4. Качество работы с кейсами