Руководство для начинающих по очистке ответов на твиты с помощью Octoparse
Я использую Octoparse для очистки. Я должен сказать, что у этого программного обеспечения очень простой в использовании интерфейс, и их команда действительно проделала большую работу, предоставив вам учебные пособия и статьи, чтобы начать работу с этим программным обеспечением. Кроме того, вы можете разместить свои запросы на их странице справки на официальном сайте, и кто-то из их команды обязательно ответит вам правильным ответом.
ПРИМЕЧАНИЕ. Здесь я использую OCTOPARSE версии 8.1, чтобы начать с нее, сначала установите ее и зарегистрируйтесь.
В этом руководстве выполните следующие действия, чтобы очистить ответы на твиты Дональда Трампа :
Шаг 1: после входа в систему вы увидите домашнюю страницу этого программного обеспечения → перейдите к кнопке + Создать в крайнем левом верхнем углу → щелкните по ней → выберите расширенный параметр из раскрывающегося списка → Откроется новое окно задачи → создайте новую группу для организации всей вашей задачи в этом (необязательно) → введите URL-адрес веб-страницы, которую вы хотите очистить (например, https://twitter.com/realDonaldTrump/status/1287119187324874754) → Нажмите "Сохранить".

ШАГ-2: После сохранения вы увидите всплывающее окно с просьбой выбрать один из двух вариантов: либо автоматически разрешить боту Octoparse очистить веб-страницу, либо выбрать определенные элементы вручную.

- Итак, здесь я выбрал 1-й вариант → нажатие на него покажет вам что-то вроде этого:

- После того, как он завершит 100% обнаружение, он покажет окно, как показано ниже, с 3 открытыми оконными интерфейсами одновременно. Всплывающее окно «СОВЕТ» содержит некоторые настройки, которые вы можете изменить перед сохранением, а также вы можете переключаться между автоматическим обнаружением результатов. Предварительный просмотр данных - это интерфейс, который содержит набор данных, и вы можете предварительно просмотреть, как он выглядит после парсинга, и на веб-странице Twitter. откроется в фоновом интерфейсе.

- При сохранении настроек вы увидите окно, как показано ниже, с 4 разделенными окнами → Теперь вы можете легко увидеть рабочий процесс и управлять настройками для каждого действия отдельно там.

- Итак, это все, что бот делает автоматически, теперь наша задача - очистить данные и соответствующим образом изменить настройки. Прежде чем мы перейдем к очистке и изменению настроек, давайте создадим цикл нумерации страниц.
ШАГ-3. Поскольку в твиттере нет кнопки перехода или он разделен на страницы, разбиение на страницы не выполняется ботом автоматически. В противном случае он бы его опознал. Итак, чтобы создать цикл разбивки на страницы, мы должны настроить бесконечную прокрутку, чтобы загружать больше данных с помощью разбивки на страницы.
- Для этого щелкните пустое место на веб-странице в любом месте, как показано на изображении ниже «крестик» → затем откроется всплывающее окно → щелкните «Циклический щелчок один элемент ».

- Вы увидите следующие изменения в рабочем процессе:

ШАГ-4: Теперь наш следующий шаг - изменить настройки соответствующим образом. Начнем с разбивки на страницы → перейдите к параметру «Щелкните для разбивки на страницы» в рабочем процессе → наведите на него курсор, и вы см. параметр «Настройки действия» → нажмите на него → и укажите эти изменения в настройках, как показано на рисунке ниже:

- Время ожидания AJAX необходимо указать для загрузки данных после прокрутки, в противном случае он не будет очищать данные и возвращать вам отчет об ошибке. Итак, 5s - хорошее среднее значение, при котором бот может автоматически загружать данные.
- Указание деталей для прокрутки необходимо, поскольку мы настраиваем цикл разбивки на страницы для бесконечной прокрутки. Итак, установите флажок «Прокручивать страницу вниз после ее загрузки» и выберите «для одного экрана». Таким образом, он очистит все, что указано на экране, за время ожидания 2 секунды.
- Теперь перейдите к параметру «Разбивка на страницы» в рабочем процессе → перейдите к его настройкам действия →, а затем выберите параметр «Выход из цикла» и укажите «нет. повторов », чтобы получить больше данных:

ШАГ 5: Теперь наша следующая задача - очистить данные. Я извлекаю ответы на твиты только для своего проекта. Вы также можете извлекать такие детали, как «ретвиты», «лайки» и т. Д. Таким образом, вы можете сохранить и другие атрибуты, если они имеют для вас смысл в вашем проекте.
- Чтобы удалить какой-либо конкретный атрибут → перейдите в раздел предварительного просмотра данных ниже → и затем выберите любой заголовок столбца → вы увидите 3 точки в углу «…» → щелкните его правой кнопкой мыши → и затем выберите параметр «Удалить» из падать.

- Есть и другие варианты, вы тоже должны попробовать их.
- После удаления всех ненужных атрибутов очищенный набор данных будет выглядеть так:

ШАГ 6: После внесения нескольких изменений, если вы получаете ожидаемые данные, вы готовы к выполнению своей задачи.
- Просто сохраните задачу и нажмите Выполнить, чтобы извлечь дополнительные данные.

- Еще одно всплывающее окно появится с вопросом о том, как вы хотите выполнить свою задачу. Таким образом, бесплатные пользователи могут выбрать только «запустить задачу на вашем устройстве». Если вы хотите извлечь более 10000 строк данных и хотите, чтобы все происходило по расписанию, вы можете перейти на премиальный план, который не так дорог со всеми этими эффективными функциями, они даже выполняют парсинг для вас по расписанию и возвращаются с очищенный набор данных, если вы просто выберете обновленный план.
- Итак, я выбираю здесь 1-й вариант, так как я не собираю столько данных.

- Вот как выглядят мои извлеченные данные:

- Если вы закончили извлечение или начали получать дубликаты → просто «Остановите запуск», а затем нажмите «Экспорт данных».
- Теперь просто экспортируйте:

- Если у вас есть дубликаты в ваших данных, он автоматически обнаружит их, и вы можете просто удалить эти дубликаты.
- Специалисты по науке о данных могут полностью относиться ко мне здесь, поскольку получить уникальный набор данных - настоящая задача.
- После экспорта данных вы увидите другое окно с просьбой сохранить как формат набора данных на вашем компьютере.

- Просто выберите любой формат → нажмите «ОК», и в следующем всплывающем окне найдите каталог с сохраненным файлом и просто откройте его оттуда.
- Взгляните на мой скопированный файл Excel:

- Итак, как вы можете видеть, как красиво он очистил весь текст - только без изображений и видео. Хотя, если вы увидите на его веб-странице, вы обнаружите, что в каждом ответе есть видео и изображения.
Примечание. Использование этого программного обеспечения отличается от веб-сайта к веб-сайту. Вам необходимо изменить некоторые настройки, если вы хотите очистить любую веб-страницу, кроме этой. Обязательно обратитесь к их Статьям и Учебникам по этому поводу. Примерно их команда охватила все типы веб-страниц, будь то статические или динамические.
Вы можете связаться со мной по следующему адресу:
- Подпишитесь на мой канал YouTube, чтобы увидеть видеоконтент, который скоро появится здесь
- Следуйте за мной на Medium
- Свяжитесь со мной и свяжитесь со мной в LinkedIn
- Станьте участником: - https://techykajal.medium.com/membership
Проверьте также мои другие блоги: