luckyea77 (luckyea77) wrote,
luckyea77
luckyea77

Что такое скрапинг: как Amazon, Walmart и другие ритейлеры используют ботов в борьбе с конкурентами



Конкуренция между крупнейшими ритейлерами привела к использованию специального вида ботов — скраперов — для шпионажа за ценами и продуктами игроков на рынке. Эта же технология используется для очистки веб-страниц, необходимой для хорошей индексации в поисковых системах и коммерческих прайс-агрегаторах. «Хайтек» адаптировал и дополнил статью WIRED, чтобы разобраться, как отличить хороших ботов от плохих и как компании используют смартфоны для сбора информации о своих конкурентах.

Скраперы и секретная интернет-гонка вооружений


Розничные продавцы от Amazon и Walmart до крошечных стартапов хотят знать, что производят их конкуренты. Реальные ритейлеры посылают так называемых тайных покупателей в магазины своих конкурентов, чтобы сделать выводы о ценовой политике.

Но в онлайне нет необходимости в такой контрольной закупке. Крупные ритейлеры продают миллионы разнообразных продуктов. И совершенно нецелесообразно заставлять работников просматривать каждый товар и вручную корректировать цены. Вместо этого компании используют программное обеспечение для изучения сайтов их конкурентов и сбора цен. Этот процесс называется скрапингом (с англ. «соскабливание» — «Хайтек»). Таким образом компании на основе информации о конкурентах корректируют свои собственные цены.

Скрапер — программа, которая копирует данные из других источников и публикует их на собственном сайте без разрешения автора, автоматически или вручную. Скрапер для этого обычно использует RSS-фиды.

Сферы применения инструментов скрапинга:

Создание списков поставщиков, производителей, продавцов и других лиц для коммерческого использование. Контактная информация извлекается с различных сайтов.
Сбор таргетированной информации для маркетинговых исследований.
Поиск вакансий или сотрудников.
Мониторинг и сравнение цен на товары в различных магазинах.
Снижение зависимости от доступа в интернет — загрузка данных с различных сайтов для возможности офлайн-чтения.


По словам Александра Галкина, генерального директора компании по оптимизации розничных цен Competera, Amazon и Walmart создают целые отделы, занимающиеся скрапингом. Другие обращаются к таким компаниям как Competera. Они собирают данные о ценах со всего интернета, начиная от розничной торговли обуви Nine West и заканчивая промышленным оборудованием Deelat, и используют алгоритмы машинного обучения, чтобы помочь своим клиентам решить, сколько стоит заплатить за разные продукты.

Walmart не ответил на вопрос об этом механизме работы. Аmazon тоже не отреагировал на вопросы о применении скрапинга. Но основатели Diapers.com, приобретенного Amazon в 2010 году, обвинили Amazon в том, что они использовали таких ботов для автоматической корректировки своих цен. Этот процесс описан в книге Брэда Стоуна The Everything Store.



Скрапинг может показаться зловещим, но это часть работы в сети. Google и Bing тоже используют скрапинг веб-страниц, чтобы индексировать их для своих поисковых систем. Академики и журналисты используют программное обеспечение для сбора данных. Некоторые из клиентов Competera, включая Acer-Europa и Panasonic, используют услугу «Бренд-разведка». Так они узнают, какие розничные продавцы взимают плату за свою продукцию, чтобы убедиться, что они соответствуют соглашениям о ценах.

Маскировка ботов и охота за ними

Скрапинг ставит ритейлеров в интересное и неоднозначное положение. Они хотят видеть, что делают их конкуренты, но с другой стороны хотят помешать соперникам отследить их собственные действия. Кроме того, для продавцов необходима защита интеллектуальной собственности: фотографий и описаний продуктов, которые можно изменить и повторно использовать без разрешения других лиц. По словам Джоша Шауля, вице-президента по веб-безопасности в Akamai Technologies, многие используют средства защиты, чтобы подорвать алгоритм скрапинга. Один из способов — показывать разные цены реальным людям и ботам. Сайт может показывать астрономически высокую или нулевую цену, чтобы сразу отмести ботов, собирающих данные.



Такая сверхзащита данных создает почву для новых правонарушений. Компания Luminati помогает клиентам, в том числе Competera, маскировать ботов, чтобы избежать обнаружения. Одна из услуг превращает ботов в обычных пользователей со смартфонов.

Услуга Luminati напоминает ботнет, сеть компьютеров с вредоносным ПО, используемым хакерами для запуска атак. Вместо того, чтобы тайно захватить устройство, Luminati побуждает владельцев устройств принимать его ПО вместе с другим приложением. Например, пользователям, загружающим MP3 Cutter из Beka для Android, предоставляется выбор: просматривать рекламу или разрешать приложению использовать «некоторые из ресурсов устройства (WiFi и очень ограниченные сотовые данные)». Если вы разрешили использовать приложению ваши ресурсы, то ваш телефон в течение нескольких секунд в день будет использоваться в целях Luminati. Происходит это, когда он простаивает, чтобы направить запросы от ботов своих клиентов и заплатить разработчику приложения. В компании Beka также не комментируют эту ситуацию.



Борьба с ботами рождает логичный вопрос: как их обнаружить? Это сложно. Иногда боты на самом деле сообщают сайтам, которые посещают, что они — боты. Когда часть ПО обращается к веб-серверу, он отправляет небольшую информацию вместе со своим запросом на страницу. Обычные браузеры объявляют себя — Google Chrome, Microsoft Edge или другое. Боты используют этот процесс, чтобы сообщить серверу, что они — боты. Но они также могут и лгать. Одним из способов обнаружения ботов является измерение частоты, с которой посетитель попадает на сайт. Если посетитель делает сотни запросов в минуту, скорее всего, это бот. Другой распространенной практикой является просмотр адреса интернет-протокола посетителя. Например, если это происходит из службы облачных вычислений, это прямое указание на то, что заходит бот, а не обычный пользователь интернета.

Шауль уверен, что такие методы, как маскировка бот-трафика, сделали отслеживание по интернет-адресу «почти бесполезным». Капча может помочь, но она неудобна для реальных пользователей. Так что Akamai применяет другие способы. Вместо того, чтобы просто искать общее для всех ботов поведение, он ищет общие проявления реальных людей и пропускает таких пользователей дальше.

Когда вы нажимаете кнопку на телефоне, вы слегка его перемещаете. Это движение распознается с помощью акселерометра и гироскопа телефона и отправляется на серверы Akamai. Наличие поминутных данных движения телефона — ключ к тому, что пользователь — реальный человек, а его отсутствие — подсказка, что пользователь может быть ботом.



Генеральный директор Luminati Офер Виленски говорит, что компания пока не предлагает пути решения этих вопросов, ввиду необычности этой практики. Но Шауль думает, что успешная охота на ботов — лишь вопрос времени. Тогда придет время для очередного круга разработок. И начнется настоящая гонка «вооружений».

Хорошие боты и плохие боты

Одной из больших проблем для Akamai и других компаний, пытающихся управлять трафиком, связанным с активностью ботов, является необходимость разрешить некоторым из них очищать сайты. Если сайты заблокируют ботов как класс, они не появятся в результатах поиска. Розничные торговцы также обычно хотят, чтобы их цены и предметы появлялись на торговых сайтах сравнения, таких как Google Shopping и Pricegrabber.

«В действительности существует очень много разных ситуаций, когда скрапинг используется в интернете для хорошего, плохого или чего-то посередине, — говорит Шауль. — У нас есть масса клиентов в Akamai, которые пришли к нам, чтобы помочь справиться именно с проблемой наплыва ботов, а не людей, посещающих их сайт».

Некоторые компании сами занимаются парсингом контента (сбор информации по списку ключевых слов — «Хайтек»). Эндрю Фогг — соучредитель компании под названием Import.io, предлагающей веб-инструменты для очистки данных. Фогг рассказал, что один из клиентов Import.io — крупный розничный продавец, имеющий две системы инвентаризации: одну для своих складских операций и одну для своего сайта онлайн-продаж. Но периодически эти системы нуждаются в синхронизации. И компания просматривает свой собственный веб-сайт, чтобы найти расхождения. Компания может теснее интегрировать свои базы данных, но очистка более экономична, по крайней мере, в краткосрочной перспективе.

Другие скраперы живут в серой зоне. Например, Шауль приводит в пример авиакомпании. Сайты сравнения цен на авиабилеты могут отправлять запрос в компании, а они, соответственно, хотят, чтобы их полеты отображались в результатах поиска для этих сайтов. Но многие авиакомпании полагаются на внешние компании для управления системами бронирования — такие как Amadeus IT и Sabre. Когда вы просматриваете информацию о рейсе через эти компании, авиакомпания оплачивает комиссию системе бронирования. Эти сборы суммируются, если большое количество ботов постоянно проверяет местонахождение авиакомпании и информацию о ценах.



Шауль отмечает, что Akamai решает эту проблему для некоторых авиакомпаний, показывая ботовую информацию о кешировании цен. Так что они не обращаются к внешним компаниям каждый раз, когда бот проверяет их цены и доступность. Боты не получат самую свежую информацию, но они получат достаточно новые данные, избежав платы в авиакомпании.

Однако существует и более проблематичный трафик. Например, распределенный отказ в обслуживании или DDoS-атаки, которые направлены на обвал сайта. По словам инсайдера, Amazon не блокирует ботов, включая ценовых скраперов. Но компания «уделяет приоритетное внимание людям, когда это необходимо, чтобы обеспечить им возможность покупок, которую наши клиенты ожидают от Amazon».



Фогг уверен, что Import.io также не сильно блокируется. Компания старается быть «хорошим полицейским», не позволяя своему ПО слишком часто чистить серверы или иным образом использовать большое количество ресурсов.

Виленски отмечает, что у клиентов Luminati есть веские причины притворяться, что они не боты. Некоторые издатели, например, хотят убедиться, что рекламодатели показывали зрителям сайта те же объявления, которые показывают им.

Tags: интернет
Subscribe

Posts from This Journal “интернет” Tag

promo luckyea77 june 21, 2015 20:04 27
Buy for 10 tokens
В этой записи я буду давать ссылки на посты с лекциями и уроками в этом блоге: Учебные материалы и тесты: Дистанционное образование Правила дорожного движения 11 ресурсов для бесплатного образования Сайты для обучения программированию Игры, в которых нужно писать код: Grid Garden, Elevator…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments