- Виды парсинга в Netpeak Spider.
- Применение функции извлечения данных.
- Настройки условий парсинга.
- Отображение условий парсинга на боковой панели.
- Результаты извлечения данных.
Парсинг — это функция, позволяющая находить и извлекать необходимую информацию с веб-ресурса. Функция парсинга в Netpeak Spider позволяет настроить до 100 условий поиска и извлечения любых HTML-данных, например, для проверки внедрения систем аналитики, микроразметки, метатегов для социальных сетей, а также для извлечения объёмных массивов данных (цен, контактов, социальных метрик и других).
1. Виды парсинга в Netpeak Spider
В программе доступны четыре вида парсинга:
- Содержит → поиск и подсчёт количества вхождений искомой фразы на странице.
-
RegExp → извлекает все значения, соответствующие заданному регулярному выражению. Позволяет больше кастомизировать процесс, значительно расширяя возможности поиска, однако требует базовых знаний регулярных выражений.
-
CSS-селектор → извлекает все значения необходимых HTML-элементов на основе заданного CSS-селектора.
- XPath → извлекает все значения необходимых HTML-элементов на основе заданного XPath.
2. Применение функции извлечения данных
Чтобы запустить поиск и извлечение данных, нужно:
- В главном меню перейти в «Настройки» → «Парсинг».
- Отметить пункт «Использовать парсинг HTML-данных» для активации настроек.
- Настроить условия и нажать «OK».
- Запустить сканирование.
3. Настройки условий парсинга
Условия парсинга содержат поля:
Название → необязательное поле, но оно помогает быстро сориентироваться в результатах сканирования по нескольким условиям сбора данных.
Вид поиска → в выпадающем меню предлагает выбрать один из четырёх вариантов: Содержит, RegExp, CSS-селектор или XPath.
Поисковое выражение → выражение, с помощью которого извлекаются данные. Зависит от того, какой вид поиска выбран. В рамках каждого работает валидация, которая быстро покажет, корректно ли заполнено поле.
Область поиска → можно выбрать только для «Содержит» и «RegExp». Если нажать на него, в выпадающем меню появятся два варианта:
- Весь исходный код → поиск искомого выражения на странице, включая все HTML-теги;
- Только текст (исключая HTML-теги) → поиск исключительно по тексту страницы.
Извлечение данных → это поле доступно при задании CSS-селектора или выражения XPath. Может иметь один из четырёх параметров:
- Внутренний текст → извлечение текста внутри указанного элемента, включая внутренний текст всех его дочерних HTML-тегов. Сам HTML-код не извлекается.
- Внутренний HTML-код → извлечение всего содержимого элемента, включая внутренний HTML-код;
- Весь HTML-элемент → извлечение всего содержимого элемента, включая внутренний HTML-код и код самого элемента.
- Значение атрибута → извлечение содержимого указанного атрибута.
Не учитывать регистр → только для поиска «Содержит» и «RegExp». По умолчанию парсер не будет учитывать регистр, что позволяет упростить поиск необходимых фраз.
Обратите внимание, что в программе есть валидация выражений. Если выражение (условие парсинга) подходит под критерии соответствующего синтаксиса, кружок с номером условия подсветится зелёным. В противном случае кружок станет красным, и под полем ввода выражения появится информация об ошибке.
4. Отображение условий парсинга на боковой панели
Настройки для парсинга отображаются в виде параметров на боковой панели во вкладке «Параметры». Если вы не внесли названия, они примут вид самого условия.
5. Результаты извлечения данных
После окончания сканирования в боковом меню на вкладке «Отчёты» → «Парсинг» отобразятся результаты парсинга. Результаты разделены на две категории, в зависимости от наличия искомых значений — «Есть» и «Нет».
Чтобы получить полный отчёт нужно нажать на кнопку «Показать все результаты».
Чтобы увидеть отчёт с выбранное значением, выберите нужную категорию и нажмите на кнопку «Показать выбранные».
Полные отчёты по парсингу можно также увидеть, если перейти в главном меню программы к «Базам данных».
Рекомендуем ознакомиться со статьёй «Как парсить различные данные из интернет-магазина с помощью Netpeak Spider», чтобы понять как необходимо подбирать настройки парсинга.