Помогите с парсингом ссылок

Тема в разделе "Решение различных задач по парсингу", создана пользователем Denkof, 26 июл 2018.

  1. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Добрый день. На форуме с подобным запросом впервые. Почитал правила, стараюсь предоставить инфу как можно информативнее. Столкнулся с проблемой сбора ссылок.
    Собрал проект для парсинга товаров, для настроки парсинга собрал пару-тройку ссылок вручную. Настроил парсинг характеристик, цен, фоток и т.д. приступил к собору ссылок сканером сайтов и заглох. Ранее с донорами проблем не возникало. То ли структура их была простой, то ли ссылки простыми тегами были представлены на страницах. Никак не могу разрулить. Сканер сайта не находит ссылок, которые бы содержали "/catalog/" находит только информационные страницы. Прошу помощи у профи, помогите разобраться как спарсить ссылки на товары, как настроить сканер?

    Все товары размещаются (как мне кажется) в корне каталога и ссылки на конкретный товар имеют вид:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Но эти самые ссылки не могу найти в коде ни одной страницы.


    Файл проекта во вложении
    Пациент Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Content Downloader V 11.1 0000355
    IE 8.0.760
    Win 7 x86
    Proxy не используется

    Что пытался: по обучающим видео менял настройки функции FIND, пробовал сканить с библиотеками INDY, Clever Internet Suite, Win. По обучающим видео пытался парсить ссылки используя GET и POST запросы - здесь вообще мрак. Не пойму сам что не так делаю, но результат отрицательный.
     

    Вложения:

    • autoboss_ua.cdp
      Размер файла:
      37,5 КБ
      Просмотров:
      2
  2. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    58
    Так сайт пустой... что вы там парсить собираетесь?
     
  3. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Ну почему же пустой? Он не пустой, надо залогиниться, там в настройках проэкта куки добавлены, и если открыть те ссылки что я привел в примере - то открывается товар. Я так понимаю они и дают возможность авторизации и возможность просматривать товры. Или я не правильно все понимаю?
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
    Скрин из вашего приложенного проекта
    [​IMG]
    пустая страница.
    Скорей всего cookie имеют ограничение по времени
     
  5. drvoodoo

    drvoodoo Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    58
    Куки вижу но авторизации нет.
     
  6. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    вот свежие
    BX_USER_ID=9c49fff88f987ee404275caeb906232a;
    BITRIX_SM_LOGIN=dekoravto%40i.ua;
    BITRIX_SM_SOUND_LOGIN_PLAYED=Y;
    PHPSESSID=RAC6U8GpNS1k1EU2RZzuH5FPbstSOclT;
    BITRIX_SM_SALE_UID=397;
    __session:0.6498790179051972:=http:
     
  7. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
    свежие cookie - то же не работают
    Если можете? - дайте логин и пароль для авторизации
     
  8. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Да, у меня тоже не открылась не одна страница пока по новому не прошел авторизацию.
    Нажал в окне программы ctrl+h, затем авторизоваться через браузер, затем ввел. логин и пароль
    dekoravto@i.ua/342334/ После этих манипуляций - все открывается
     
  9. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    скрини
     

    Вложения:

  10. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    Последнее редактирование модератором: 27 июл 2018
  11. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
  12. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Попробуйте пожалуйста перенабрать может быть логи. Хотя я только что скопировал с форума и вставил в форму - авторизовалоьсь без проблем. Скрин
     
  13. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    вот авторизация
     
  14. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
    Прикол в том, что авторизация проходит только с UA ip адресов
     
  15. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Ясно, очень жаль.
     
  16. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    может так натолкнет на какую то мысль: ниже код страницы корневого каталога, который отдает парсер
     

    Вложения:

  17. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
    Ссылки на товар вида _Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! - формируются из ajax, который подгружает данные на страницу в зависимости от выбранного пункта в фильтре.
    И просто так ссылку на карточку детали авто - не получить
    + sitemap - отсутствует
     
  18. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    Может можно как то пропарсить все пункты (условия) фильтра и сформировать такие ссылки ?
     
  19. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    211
    Думаю - можно
    читайте справку по WBAPP - стройте логику кликов по пунктам меню
     
  20. Denkof

    Denkof New Member Пользователи

    Регистрация:
    26 июл 2018
    Сообщения:
    22
    Город:
    Сумы
    ок, спасибо. Сижу перечитываю всю справку по парсеру.
    Уважаемые форумчане, если у кого появятся идеи или предложения - буду крайне признателен и с удовольствием выслушаю.
     

Поделиться этой страницей