Очистка данных: Python

Очистка данных означает исправление или удаление неверных данных или неважных данных в вашем наборе данных. Специалисты по данным тратят значительные усилия на очистку наборов данных и преобразование их в пригодные для использования форматы. Действительно, многие специалисты по данным утверждают, что на начальные этапы получения и очистки данных приходится 80% работы.

Плохие данные могут быть:

Пустые ячейки
Данные в неправильном формате
Неверные данные
Дубликаты

Во-первых, проверьте пропущенные даты

После импорта необходимых библиотек.

Сначала вам нужно будет предпринять шаги для проверки отсутствующих дат, мы будем использовать набор данных df_arabica_clean. Который переименовывается как coffee.csv.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

coffee = pd.read_csv('coffee.csv')
coffee.head()

Теперь мы можем видеть столбцы этого набора данных.

Последняя часть показывает, что у нас есть 5 строк и 41 столбец, это из функции head(). Когда мы смотрим на функцию tail(), мы видим последние 5 строк набора данных.

coffee.tail()

Чтобы получить всю информацию о данных, мы используем функцию info(). это даст вам общую информацию, которая вам нужна.

coffee.info()

Вы можете видеть, что наш набор данных имеет значение объекта и некоторые целые числа.

Мы также можем использовать функцию shape(), чтобы просто узнать количество строк и столбцов в наборе данных.

coffee.shape

Чтобы проверить пустую ячейку или отсутствующие данные.

coffee.isnull().sum()

Теперь мы можем удалить некоторые ненужные данные, которые нам не нужны из нашего набора данных.

to_drop = ['Unnamed: 0','Harvest Year',
           'Grading Date','Owner',
           'Processing Method','Status',
           'Aftertaste','Uniformity',
           'Clean Cup','Sweetness','Overall',
           'Acidity']

coffee.drop(to_drop, inplace=True, axis=1)

Это удалит столбцы, указанные в квадратных скобках, поэтому теперь вы можете проверить функцию info(), чтобы увидеть, удалены ли столбцы.

Мы также можем сделать новый DataFrame из набора данных, который состоит только из данных, с которыми мы будем работать.

new_columns = ['Country of Origin', 'Company','Number of Bags', 'Moisture Percentage', 'Flavor', 'Color','Total Cup Points','Expiration']
coffee = coffee.drop([c for c in coffee.columns if c not in new_columns],axis=1)
coffee.head()

Вы можете видеть, что теперь ваш набор данных стал более читабельным и аккуратным.

В зависимости от вашей цели, многого можно добиться с помощью чистого и организованного набора данных. мы можем визуализировать эти данные с помощью различных диаграмм или придумать историю, которую вы хотите, чтобы ваши данные рассказали.

Пример.

x = coffee['Color']
y = coffee['Flavor']

plt.barh(x,y)


plt.show()

Спасибо,

Удачной практики.

Новые материалы

Конфигурация Gulp для WordPress - Часть II

Здесь мы переходим ко второй части руководства по настройке Gulp для оптимальной разработки WordPress. Если вы пропустили первую часть, где мы установили все модули, необходимые для задач,..

LACTF — сеть/метавселенная

В lactf я смог решить задачу веб/метавселенной. Ниже приведен исходный код, предоставленный здесь Из исходного кода видно, что флаг — это отображаемое имя администратора...

GraphQL — Язык запросов — Часть 1

Первое, что нужно знать: GraphQL — это спецификация (как она должна работать и выглядеть), а не реализация. GraphQL не нужно устанавливать, вы реализуете его с помощью серверной библиотеки,..

Будущее машинного обучения в Индии

Будучи связанным с интенсивно развивающимся языком, непрерывные технологические достижения наверняка поразят сектор машинного обучения, который вот-вот сформирует долгосрочную перспективу машинного..

Сравнение Clojure IDE — Emacs/Cider и IDEA/Cursive

Введение Недавно я редактировал сообщение в блоге, в котором брал интервью у жителей Метосинии относительно их любимых редакторов Clojure . Было довольно интересно увидеть, что используется..

Строки, регулярные выражения и шаблонные литералы — Часть 1 | Понимание ES6

Строки, несомненно, являются одним из самых важных типов данных в любом языке программирования. Строки есть практически в каждом языке программирования, и научиться их эффективному..

7 признаков того, что вы все еще начинающий веб-разработчик

В этой статье я расскажу о 7 признаках того, что вы все еще начинающий веб-разработчик. Это вещи, в которые время от времени могут впадать даже опытные разработчики, поэтому не беспокойтесь,..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning React AI Software Engineering Java Nodejs Front End Development Algorithms Typescript Computer Science Data Tutorial Tech NLP Development CSS Javascript Tips Neural Networks Programming Languages Angular Productivity Developer Github Reactjs HTML Data Visualization ChatGPT Python Programming Startup DevOps