Описание ситуации: Вы продолжаете работу в компании "Технологии будущего". На одном из утренних совещаний аналитик компании, Иван, рассказал вам о работе с большими данными и объяснил, что для эффективного анализа используется библиотека Pandas, которая помогает загружать, обрабатывать и анализировать большие массивы данных.
"Pandas предоставляет два основных объекта для работы с данными: Seriesи DataFrame. Series— это одномерная структура данных, напоминающая колонку в таблице или массив. DataFrame— это двумерная структура, как таблица, где каждая колонка может хранить данные разного типа. DataFrame особенно удобен, когда работаешь с большими данными, ведь он позволяет легко фильтровать, группировать и преобразовывать данные. Мы используем платформу Kaggle для загрузки наборов данных, так как там доступны огромные и разнообразные наборы данных для анализа."
Проблемная ситуация: Вам предстоит применить Pandas для обработки данных: загрузить их, очистить от дубликатов и пустых значений, получить основную информацию и провести индексацию по условиям.
Исходные условия: Данные предоставлены в формате CSV, загруженные из Kaggle. Работа выполняется в Jupyter Notebook, каждое задание выполняется в отдельной ячейке.
Форма выполнения задания: Индивидуальная работа.
Программные инструменты для выполнения:
- Язык программирования: Python
Требования к результату выполнения задания: Предоставить файл .ipynb с выполненными заданиями, комментариями и примерами вывода.