Очистка данных означает исправление или удаление неверных данных или неважных данных в вашем наборе данных. Специалисты по данным тратят значительные усилия на очистку наборов данных и преобразование их в пригодные для использования форматы. Действительно, многие специалисты по данным утверждают, что на начальные этапы получения и очистки данных приходится 80% работы.

Плохие данные могут быть:

  • Пустые ячейки
  • Данные в неправильном формате
  • Неверные данные
  • Дубликаты

Во-первых, проверьте пропущенные даты

После импорта необходимых библиотек.

Сначала вам нужно будет предпринять шаги для проверки отсутствующих дат, мы будем использовать набор данных df_arabica_clean. Который переименовывается как coffee.csv.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

coffee = pd.read_csv('coffee.csv')
coffee.head()

Теперь мы можем видеть столбцы этого набора данных.

Последняя часть показывает, что у нас есть 5 строк и 41 столбец, это из функции head(). Когда мы смотрим на функцию tail(), мы видим последние 5 строк набора данных.

coffee.tail()

Чтобы получить всю информацию о данных, мы используем функцию info(). это даст вам общую информацию, которая вам нужна.

coffee.info()

Вы можете видеть, что наш набор данных имеет значение объекта и некоторые целые числа.

Мы также можем использовать функцию shape(), чтобы просто узнать количество строк и столбцов в наборе данных.

coffee.shape

Чтобы проверить пустую ячейку или отсутствующие данные.

coffee.isnull().sum()

Теперь мы можем удалить некоторые ненужные данные, которые нам не нужны из нашего набора данных.

to_drop = ['Unnamed: 0','Harvest Year',
           'Grading Date','Owner',
           'Processing Method','Status',
           'Aftertaste','Uniformity',
           'Clean Cup','Sweetness','Overall',
           'Acidity']

coffee.drop(to_drop, inplace=True, axis=1)

Это удалит столбцы, указанные в квадратных скобках, поэтому теперь вы можете проверить функцию info(), чтобы увидеть, удалены ли столбцы.

Мы также можем сделать новый DataFrame из набора данных, который состоит только из данных, с которыми мы будем работать.

new_columns = ['Country of Origin', 'Company','Number of Bags', 'Moisture Percentage', 'Flavor', 'Color','Total Cup Points','Expiration']
coffee = coffee.drop([c for c in coffee.columns if c not in new_columns],axis=1)
coffee.head()

Вы можете видеть, что теперь ваш набор данных стал более читабельным и аккуратным.

В зависимости от вашей цели, многого можно добиться с помощью чистого и организованного набора данных. мы можем визуализировать эти данные с помощью различных диаграмм или придумать историю, которую вы хотите, чтобы ваши данные рассказали.

Пример.

x = coffee['Color']
y = coffee['Flavor']

plt.barh(x,y)


plt.show()

Спасибо,

Удачной практики.