1. ФОРУМ РАБОТАЕТ В РЕЖИМЕ ЧТЕНИЯ (ЗАКРЫТ ДЛЯ НОВЫХ ВОПРОСОВ)!

Загрузить все страницы выдачи поисковика

Тема в разделе "WBApp", создана пользователем jumanji, 8 апр 2018.

  1. jumanji

    jumanji New Member Пользователи

    Регистрация:
    22 дек 2010
    Сообщения:
    11
    всем привет! внимание вопрос
    есть такой поисковик Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! парсю первую страницу ссылок по запросам легко, а вот со второй проблемы, ну и последующими тоже, дело в том что перед урлом сайта проставляются рандомно - s2-eu5.Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! например
    посмотрел видео по POST , там немного другая ситуация. сможет ли твоя программа победить такое чередование в урле при переходе на 2-ю страницу?
    если не победим, то ...
    гуру, помогите
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.477
    Город:
    Сочи
    Здравствуйте.

    Как вариант, имитировать прокликивания по страницам выдачи в приложении WBApp Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  3. jumanji

    jumanji New Member Пользователи

    Регистрация:
    22 дек 2010
    Сообщения:
    11
    вобщем кликается в настройке проекта, а при запуске нифига, и нужно же еще спарсить ссылки о второй страницы, нифига не могу подружить, хелп ми
     

    Вложения:

  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.477
    Город:
    Сочи
    Здравствуйте

    2018-04-13_01-14-45.png

    2018-04-13_01-16-01.png
     
    jumanji и xLime нравится это.
  5. jumanji

    jumanji New Member Пользователи

    Регистрация:
    22 дек 2010
    Сообщения:
    11
    такс, ну с этим теперь понятно что делать, вот взял я это html код, как его в повторяющихся границах забрать, в итоге
    спасибо! методом тыка настроил дальше, в поле в самой программе ввел границы повторяющиеся <CD_CYCLE_GRAN_1!> , парсинг получился. может как-то еще можно сделать для ускорения? но долго с этим webapp, 1 поток это даааа. перспективы по 5-10 потоков далекие?
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.477
    Город:
    Сочи
    Увеличивайте потоки на сколько вам ваш процессор и сеть позволяют.
     
  7. jumanji

    jumanji New Member Пользователи

    Регистрация:
    22 дек 2010
    Сообщения:
    11
    еще один клон поисковика Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    хочу его без webapp распарсить, стандартными методами, но почему-то не дают выдачу при входе на страницу через программу, ставил в clever https PreSET1 и без разницы, кто знает победить можно?
     
  8. inotoxic

    inotoxic Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    79
    Все работает
    [​IMG]


    [​IMG]

    На будущее, прежде чем писать на форум, поиграйте с настройками CDX - в 99% помогает быстрей, чем ждать ответ на форуме
     
  9. jumanji

    jumanji New Member Пользователи

    Регистрация:
    22 дек 2010
    Сообщения:
    11
    ок, а ссылки у вас видны в коде из этой выдачи?
     
  10. inotoxic

    inotoxic Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    79
    Видны, после того как WEBApp отработает
    [​IMG]
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.085
    Ну все нормальные поисковики показывают данные только после того как обработаются скрипты. поэтому логично что получить данные можно после обработки скриптов.
     

Поделиться этой страницей