Skip to content

galleydata/CleaningDataProject

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект 1. Анализ базы данных резюме и демонстрация методов очистки

Оглавление

  1. Описание проекта
  2. Описание данных
  3. Зависимости
  4. Установка проекта
  5. Использование проекта
  6. Авторы
  7. Выводы

Описание проекта

Очистка данных (data cleaning) – это процесс обнаружения и удаления (или исправления) поврежденных, ложных или неинформативных записей таблицы или целой базы данных. Процесс состоит из двух этапов: поиск и ликвидация (или редактирование).

Основные этапы очистки данных показаны в данном проекте:

  1. Базовый анализ структуры данных.
  2. Преобразование данных.
  3. Разведывательный анализ.
  4. Очистка данных

Цель очистки данных — избавиться от не информативных признаков, которые могут помешать моделированию или исказить его результаты. Во многих задачах очистка данных — это самая главная часть этапа подготовки данных к построению модели, которая нередко занимает большую часть времени работы над задачей.

Данный проект направлен на демонстрацию применения различных методов очистки данных на каждом из ее этапов на примере датасета с сайта поиска вакансий hh.ru.

О структуре проекта:

  • images - папка с изображениями, необходимыми для проекта
  • data-cleaning.ipynb - jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы и подходы решения задач очистки данных
  • requirements.txt - файл с зафиксированными версиями библиотек.

Описание данных

Компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе.

Исходный датасет представляет собой набор данных из таблицы с информацией о соискателях из разных городов России и ближнего зарубежья, с различным уровнем образования и различныйх возрастных групп. Файл с резюме соискателей нужно скачать здесь.

А также таблицу ExchangeRates, в которой уже сделана выгрузка курсов валют, которые встречаются в наших данных за период с 29.12.2017 по 05.12.2019 - нужно скачать эту таблицу по ссылке. Это таблица соответствия наименований иностранных валют в наших данных и их общепринятых сокращений, которые представлены в файле с курсами валют.

Необходимо заранее создать папку data в директории, где лежит файл data-cleaning.ipynb. Затем нужно сохранить файлы в формате .csv, скачанные по ссылкам предоставленным выше и положить эти файлы в папку data.

Используемые зависимости

Установка проекта

git clone https://github.com/galleydata/CleaningDataProject

Использование

Вся информация о работе представлена в jupyter-ноутбуке data-cleaning.ipynb.

Авторы

  • Ярослав Москаленко

Выводы

Применил на практике полученные знания по использованию инструментов для Data Science и методам работы с данными.

About

Демонстрация применения различных методов очистки данных

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published