Парсингом веб-сайтов называют процесс поиска и извлечения размещенных на них данных, представляющих интерес для того, кто этот процесс организовал.
Российская компания Xmldatafeed занимается парсингом данных в основном в области электронной коммерции, последующей их обработкой и продажей. Интерес представляют названия товаров, их потребительские характеристики, описания, цены, сопутствующие товары, наличие на полках... Чаще всего подобные данные заказывают друг о друге конкуренты, хотя результаты парсинга бывают полезны и самим владельцам подвергнутых парсингу сайтов. Ежедневно Xmldatafeed обрабатывает около 600 крупных сайтов, среди них «Беру!», Ozon, «Авито», «Леруа Мерлен», «Эльдорадо», «220 вольт» и т. п.
На сбор данных об одной единице товара, по словам коммерческого директора Xmldatafeed Максима Кульгина, уходит
Как пояснил технический директор Qrator Labs Артем Гавриченков, парсингом сайтов компаний, схожих с упомянутыми выше, одновременно могут заниматься десятки сосредоточенных на этом бизнесе команд, различающихся по величине и квалификации. В процессе сбора данных квалифицированные команды стараются не причинить обрабатываемому источнику никакого вреда. Тем не менее некоторые владельцы сайтов (которые парсят столь активно, что процесс парсинга становится похожим на DDoS-атаку) используют защиту от парсинга и обращаются к профессионалам за проверкой ее качества.
По мнению Максима Кульгина, полностью защититься от парсинга невозможно: профессионалы, по его утверждению, могут собрать данные даже с защищаемых от парсинга сайтов. Тем не менее инструментами противодействия парсингу (для этих целей годятся в том числе и средства защиты от DDoS-атак) можно сильно осложнить процесс парсинга, прежде всего для неквалифицированных дилетантов.
По оценкам Максима Кульгина, сегодня в России профессиональные услуги парсинга предлагают пять зрелых компаний, и их работа обходится для заказчиков недешево. Так, обработка одного сайта, масштабами схожего с упомянутыми выше, стоит около 10 тыс. руб. в месяц. Несмотря на это компания получает до десяти запросов ежедневно.
Генеральный директор Qrator Labs Александр Лямин считает, что рынок профессионального парсинга в России сформировался, и оценивает его как легитимный. К сожалению общую картину, по его мнению, портят «дикие» фрилансеры, которые обещают обработку любых веб-ресурсов за несколько сотен рублей в месяц, но выполняют работу грязно по отношению к обрабатываемым ресурсам и некачественно по отношению к заказчикам. Развитие рынка, как считает Артем Гавриченков, приведет к вытеснению с него дилетантов и укрупнению профессиональных игроков.
Роботизированный трафик в российском вебе (а парсинг тоже осуществляют программы-роботы, поскольку вручную выполнять его в промышленном объеме невыгодно) достигает сегодня 60%. Отталкиваясь от этого показателя, можно оценить значимость парсинга. Так, по словам Александра Лямина, парсинг делает рынок электронной коммерции более конкурентным, открытым и динамичным. Ну а для того, чтобы защитить свои данные от нежелательного парсинга, он рекомендует владельцам сайтов обязательно использовать при доступе к данным авторизацию и аутентификацию. В этом случае тот, кто проводит парсинг, чтобы получить данные, должен пойти на откровенный взлом сайта.
Гораздо больше проблем, чем непрофессиональный парсинг, владельцам сайтов доставляет скликивание рекламы (klickfraud), которое заметно (до 25%) снижает эффективность рекламного бюджета жертвы и которое компании нередко применяют в борьбе с конкурентами. При этом масштаб скликивания, по оценкам Максима Кульгина, значительно превосходит масштабы парсинга и атак DDoS.
В условиях массированной цифровизации бизнеса в стране стали активно создаваться электронные торговые площадки (marketplace). По мнению Максима Кульгина, они, предоставляя торговое пространство для поставщиков товаров, облегчают задачу компаниям, профессионально занимающихся парсингом, поскольку способствуют сокращению количества сайтов, которые нужно обработать, чтобы собрать то же количество данных о товарах разных вендоров. Поскольку сами площадки пока не располагают ИТ-системами, занимающимися обработкой данных о товарах, в том числе управлением ценообразованием, они также сохраняют заинтересованность в услугах парсинга.