Сайт каким-то образом запоминает парсер

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем dmitryt, 29 июл 2014.

  1. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Добрый день!

    Я предоставлю 2 файла проекта и попробую объяснить суть проблемы.

    Итак, берем этот проект

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Пытаемся спарсить. Всё удачно, все хорошо - файл сохранился в папку с названием города + в названии самого файла есть название города.

    Затем, открываем проект, (для чистоты эксперимента можно удалить настройки куки предварительно) который заточен под другой город:

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    И обнаруживаем, что он выкачивает прошлый город, а не новый, каким-то образом запоминая нас.

    Помогает только получение новых куки каждый день перед конкретным парсингом.

    Есть какие-то варианты?
     
    Последнее редактирование: 29 июл 2014
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!

    Каждый раз, при парсинге первого документа проекта, автоматически выбирать нужный город в WBApp и передавать из него куки в настройку HTTP-запросов программы (ctrl+h) примерно таким вот способом - Ссылки недоступны для гостей
    Если будут вопросы - пожалуйста, пишите.

    С уважением к вам, Сергей.
     
  3. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Нужна Ultimate?
    Нашел более изящное решение - если пройти по ссылке /region/change/1 то регион меняется. Попробую потестировать...
     
    Последнее редактирование: 29 июл 2014
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Для этого способа - да.
    Но если сайт запоминает ваш город по IP. Вы можете отправлять сайту POST-запрос выбора города перед парсингом макросом PHP_SCRIPT (или вызвать PHP-скрипт в кнопке "автоматизация..." во вкладке "контент"). Адрес для отправки запроса и отправляемые данные для выбора города можно посмотреть плагином для Mozilla Firefox - LiveHTTPHeaders...
    Использование PHP_SCRIPT и функций автоматизации возможно с любым типом лицензии.
     
  5. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Честно говоря не понимаю как он запоминает меня - у меня тысяча SOCKS прокси платных.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ничего не понятно мне тогда, как он вас запоминает, если даже прокси не меняют этой ситуации. В ctrl+h куки прописаны? После удаления куки ничего не меняется? Тогда, думаю, лучше передавать перед парсингом Куки, как я и предложил изначально... Лучше знать, какой сайт парсите (чтобы проверить, удастся ли там выбрать город с помощью WBApp).
     
  7. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Пробую парсить даже без куки - парсит тот город, который парсился последний.
     
  8. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Как я описал - запускаем сначала первый парсинг. Делаем паузу. Запускаем второй парсинг - парсится город из первого парсинга.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Лучше знать, какой сайт парсите (чтобы проверить, удастся ли там выбрать город с помощью WBApp)
     
  10. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Причем даже !проекты! разные... Такое чувство, что где-то еще остается след...
     
  11. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Root, свою проблему я решил костылем - добавил в начало списка ссылок несколько ссылок с изменением региона
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    , чтобы перед этим парсингом зайти именно на нужный регион.

    А файлы проектов я прикрепил в первом посте, там и ссылку на сайт можно увидеть и потестить проект.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы - молодец, это никакой даже не костыль. Я про это и говорил (отправка запроса).
    Вы можете эту ссылку для смены региона вставить не в список ссылок, а в кнопку "автоматизация..." (про которую я ранее говорил). Там есть окно, куда можно прописать адреса выполняемых перед парсингом PHP-скриптов..
     
  13. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Сергей, а вы пробовали запустить мои файлы проектов по очереди? Сначала первый, потом второй. У вас разные города парсятся?
    Я к тому, что вдруг какой-то баг?
     
    Последнее редактирование: 29 июл 2014
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Только если баг сайта, причем тут программа). Нет, не пробовал...
     
  15. dmitryt

    dmitryt New Member Пользователи

    Регистрация:
    24 июн 2014
    Сообщения:
    110
    Ладно, я решил конкретную проблему, хоть и не понятно как сайт каким-то образом запоминает парсер, даже если я под разными анонимными прокси...
     

Поделиться этой страницей