Парсинг сайта с обновлением cookies

Тема в разделе "Разное", создана пользователем ltt, 1 май 2017.

  1. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    112
    Добрый день! Перерыл весь форум, но подходящего не нашел... Имеется сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 4 постов.**
    - при парсинге банит. Ввел прокси, а так же множество заголовков - не помогает. Делаю вывод, что банит по куки... Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    1) Попытался реализовать смену заголовков с помощью [ROTATE], подставляя куки с разных браузеров, соответственно, с разными PHPSESSID и данными - нет эффекта. Ввел в шаблон вывода макрос [COOKIES] чтобы посмотреть, как они меняются от запроса к запросу - никак (((
    Ввел в шаблон вывода макрос [CUSTOMHEADERS] - а он оказывается прямо так, массивом их и выводит Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! (парсинг clever без DOM) - Так и должно быть, он передает их так же?

    2) Попытался реализовать Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! этот способ (проверка капчи и запуск вебапп - 1 в 1 как у вас), но в WebApp выполнить макрос [CLEARCACHE] чтобы куки обновлялись. Но во-первых, [ONETHREAD] будто игнорируется, при 10 потоках запускается 10 вебаппов, ну и кукис остаются прежними... Если ли какая-то тут функция для полного обновления кукис и сессии раз в несколько запросов (про счетчик понимаю, но чем их обновить - непонятно)

    Заранее спасибо!
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.627
    Добрый
    Что именно вы пытаетесь сделать?
     
  3. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    112
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 4 постов.**
    - вот из таких категорий пытаюсь взять ссылки на компании, а затем придется по всем компаниям пройти. сейчас 20 000 запросов. а будет около 500 000...
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.627
    тогда нужны хорошие прокси, либо подключение антигейта, но судя по тому, как быстро банит, это будет нерентабельно
     
    ltt нравится это.
  5. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    112
    Да, антигейт работает, но бан каждые 15 запросов... Я думал с кукис что то можно придумать...
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.627
    так бан по айпи, чем тут могут помочь куки?
     
  7. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    112
    Ну у меня список прокси стоит, каждый раз разные, уже всякие попробовал. Разве может так банить? ровно каждые 15 разных ip адресов
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.627
    попробуйте в 1 поток с паузой в 1000
     
    ltt нравится это.
  9. ltt

    ltt Member Пользователи

    Регистрация:
    21 дек 2016
    Сообщения:
    112
    Ну пока за неимение другого, уже идет - спасибо. Но это на неделю... да и новый способ хотел освоить.
     

Поделиться этой страницей