Очистка данных (data cleaning) – это процесс обнаружения и удаления (или исправления) поврежденных, ложных или неинформативных записей таблицы или целой базы данных. Процесс состоит из двух этапов: поиск и ликвидация (или редактирование).
Основные этапы очистки данных показаны в данном проекте:
- Базовый анализ структуры данных.
- Преобразование данных.
- Разведывательный анализ.
- Очистка данных
Цель очистки данных — избавиться от не информативных признаков, которые могут помешать моделированию или исказить его результаты. Во многих задачах очистка данных — это самая главная часть этапа подготовки данных к построению модели, которая нередко занимает большую часть времени работы над задачей.
Данный проект направлен на демонстрацию применения различных методов очистки данных на каждом из ее этапов на примере датасета с сайта поиска вакансий hh.ru.
О структуре проекта:
- images - папка с изображениями, необходимыми для проекта
- data-cleaning.ipynb - jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы и подходы решения задач очистки данных
- requirements.txt - файл с зафиксированными версиями библиотек.
Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.
Исходный датасет представляет собой набор данных из таблицы с информацией о соискателях из разных городов России и ближнего зарубежья, с различным уровнем образования и различныйх возрастных групп. Файл с резюме соискателей нужно скачать здесь.
А также таблицу ExchangeRates, в которой уже сделана выгрузка курсов валют, которые встречаются в наших данных за период с 29.12.2017 по 05.12.2019 - нужно скачать эту таблицу по ссылке. Это таблица соответствия наименований иностранных валют в наших данных и их общепринятых сокращений, которые представлены в файле с курсами валют.
Необходимо заранее создать папку data в директории, где лежит файл data-cleaning.ipynb. Затем нужно сохранить файлы в формате .csv, скачанные по ссылкам предоставленным выше и положить эти файлы в папку data.
- Python (3.9):
git clone https://github.com/galleydata/CleaningDataProject
Вся информация о работе представлена в jupyter-ноутбуке data-cleaning.ipynb.
- Ярослав Москаленко
Применил на практике полученные знания по использованию инструментов для Data Science и методам работы с данными.
