парсинг яндекс маркета после бана

Тема в разделе "Решение проблем с использованием программы", создана пользователем freezon, 17 сен 2014.

  1. freezon

    freezon New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    2
    Во время парсинга яндекс маркета произошел бан, после смены ip парсинг все равно не осуществляется, хотя просмотр странички в интернете работает и все отображает. В чем проблема?
    Лог прилагаю
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Попробуйте передать актуальные cookies в ctrl+h (либо воспользоваться инструментом передачи cookies -> кнопка с изображением ключика во вкладке "Контент").

    Если не поможет, проверьте, код web-страницы, которую получает программа при обращении к Маркету (нажать ctrl+f1).

    С уважением к вам, Сергей.
     
  3. freezon

    freezon New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    2
    Спасибо! Первое подействовало!
     
  4. arpiar

    arpiar New Member Пользователи

    Регистрация:
    12 окт 2014
    Сообщения:
    4
    Здравствуйте.

    Очень нужна помощь, дальше уже не знаю, что делать. Не могу понять, что делаю не так
    Проблема в чем: из 300 ссылок нормально спарсилось 75, все остальные (Яндекс забанил) - дают пустоту
    Пример CSV файла:
    "Huawei";"Huawei Honor 3 Yandex";;"4.00";"смартфон, Yandex.Kit / экран 4.7"", разрешение 720x1280 / камера 13 МП, автофокус / память 8 Гб, слот microSD (TransFlash) / Bluetooth, Wi-Fi, GPS, ГЛОНАСС / аккумулятор 2150 мАч /"
    ;;;; - здесь должны быть аналогичные параметры по другой ссылке
    ;;;; - здесь должны быть аналогичные параметры по другой ссылке

    Что получается: при задании границ парсинга при просмотре в верхнем экране (рис. un-002.jpg)
    сверху показывается код бана - страница с капчей, а внизу в окне браузера страница открывается нормально, так как нужно

    Что делаю:
    Перехожу в настройки (cntl+h) -> нажимаю авторизацию -> ввожу капчу -> открывается нужная страница с ЯМ -> получаю и передаю куки программе.

    Вроде дожно быть все нормально! Но, захожу опять в окно настройки границ -вверху опять код страницы с капчей, а внизу - в просмотре опять правильная страница. Или кликаю для предварительного просмотра результата в CSV файле (по любой из ссылок) - ячейки пустые, данные не парсятся :(

    Стоит в 1 поток и использовать IE, другие скриншоты настройки: (рис. un-004.jpg)




    В чем проблема?
     

    Вложения:

    • un-001.png
      un-001.png
      Размер файла:
      711,7 КБ
      Просмотров:
      0
    • un-002.png
      un-002.png
      Размер файла:
      1,3 МБ
      Просмотров:
      1
    • un-004.png
      un-004.png
      Размер файла:
      535,6 КБ
      Просмотров:
      0
    Последнее редактирование: 16 окт 2014
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пробуйте передать куки другим методом -> Ссылки недоступны для гостей (Авторизация методом передачи Cookies из плагина Firefox — LiveHTTPHeaders в настройку HTTP-запросов программы (ctrl+h) — САМЫЙ ВЕРНЫЙ МЕТОД).

    Так как из IE не всегда получается получить полный набор Cookies.

    Спасибо за обращение!

    С уважением к вам, Сергей.
     
  6. arpiar

    arpiar New Member Пользователи

    Регистрация:
    12 окт 2014
    Сообщения:
    4
    Спасибо за оперативность с ответом :) Попробую метод!
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, если не разберетесь по той инструкции - скажите, может быть запишу видео по этой теме.

    С уважением к вам, Сергей.
     
  8. arpiar

    arpiar New Member Пользователи

    Регистрация:
    12 окт 2014
    Сообщения:
    4
    Это какое-то непонятное шаманство, пока не понял, как получилось, но:
    1) К методу "Авторизация методом передачи Cookies из плагина Firefox — LiveHTTPHeaders" - не дошел. Пересмотрев видео по ссылке Ссылки недоступны для гостей -> очистил куки в программе (ctrl+h) -> зашел (может это помогло! :)) паралельно с IE 11 на страницу яндекс-маркета -> затем вернулся в CD -> авторизовался через панельку контент в главном окне (кликнув на "ключик") -> вернулся в главное окно СD -> проверил выборочно несколько ссылок -> все заработало!


    2) Видео по вставке куков с Яндекс-Маркета было бы хорошо и вправду разместить, посмотрел Firebag-ом, они там (показалось) нестандартные. Непонятно, что вытягивать для вставки (они не в одну строку, как в примере в видео, при сохранении куков от ЯМ в файле сохраняется несколько текстовых строк, то есть они совсем непохожи на те, которые программа получает через (ctrl+h) и кнопку "авторизация в браузере/авторизация методом POST"

    P.S.: Сейчас идет парсинг через IE (DOM), медленно, но все парситься (большая задержка)

    После последних манипуляций назрел вопрос: куки в окне "настройка HTTP-запросов программы" и куки, которые программа получает из главного окна программы (нажав на ключик) - одни и те же, или они все же разные? Потому-что сейчас идет парсинг (после авторизации через главное окно программы, а не через (ctrl+h))
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При выборе IE (DOM) куки берутся из Internet Explorer. Вам не надо придумывать другие способы сейчас, а действовать, как написал я в предыдущем сообщении:
    Но если вас устраивает медленный парсинг через IE, то нет проблем... Больше ничего делать тогда вам сейчас не надо.

    С уважением к вам, Сергей.
     
  10. arpiar

    arpiar New Member Пользователи

    Регистрация:
    12 окт 2014
    Сообщения:
    4
    Спасибо, Сергей, за оперативные ответы и внимание к вопросам пользователей с разным уровнем тех. грамотности
     

Поделиться этой страницей