Не могу собрать ссылки, код необычный

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем Mind, 16 ноя 2018.

  1. Mind

    Mind Well-Known Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    190
    Доброго дня!

    Просьба подсказать, как можно собрать ссылки с таких сайтов как eapteka.ru и piluli.ru
    Пробовал через сканер, генерацию ссылок, карту сайта - не выходит.
    Когда в браузере открываешь страницу товара - код не обычен. Подозреваю,что здесь какую-то роль играет код Ссылки недоступны для гостей

    Заранее спасибо!
     
    Последнее редактирование: 16 ноя 2018
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Как обычно, старая школа. галка Контент + руки
     
    Mind нравится это.
  3. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Уважаемые форумчане, доброго времени суток!
    Помогите кто чем сможет:)
    Не могу собрать ссылки на товары с сайта Ссылки недоступны для гостей
    Сайт заскриптован и ссылок на страницу с товаром нет (по крайней мере я не смог найти), с чем и обращаюсь.
    1. Во-первых на сайте присутствует кодировка а-ля
    \u0430|а
    \u0410|А
    \u0431|б
    с этим я справился - подсунул в поиск-замену.
    2. sitemap.xml и robots.txt в корне сайта нет
    3. думал собрать в очередь ссылок разделы Ссылки недоступны для гостей , а уже с них получить ссылки на товары. Ссылки на разделы вроде собираются, но тоже с шаманством, поскольку они не обычных тэгах <a href, а в тэгах "url". В общем через кнопку Find прописав "url":"{get}","name" удалось получить ссылки на разделы, но после 670 нормальных ссылок массово плодятся несуществующие ссылки такого типа:
    Ссылки недоступны для гостейcatalog/budushchie-mamy-i-kormyashchie/kormlenie/detskaya-posuda
    Но самое прикольное, что в них отсутствуют ссылки на карточку товара. Карточка товара имеет такой вид:
    Ссылки недоступны для гостей
    4. с авторизацией на сайте тоже все непросто, точнее никак. В IE сайт не работает (IE установлен 11 версии. операционка Win7 SP1 максимальная), по крайней мере страница авторизации не открывается.
    и в CD авторизацию через webbrowser сделать не дает.
    5. Авторизация POST -запросом тоже не получилась. Выдает ошибку:
    upload_2019-5-8_0-38-3.png
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 500 постов.**
    Помогите, подскажите, направьте в нужное русло. На всякий случай прикладываю зачаток проекта, что удалось сделать.
    Заранее благодарен!
     

    Вложения:

    • om37_ru.cdp
      Размер файла:
      226,7 КБ
      Просмотров:
      0
    Последнее редактирование: 8 май 2019
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Ссылки можно собирать GET запросом в json
    [​IMG]
     
    aresa нравится это.
  5. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Спасибо! К сожалению json не владею:(
    Я так понимаю, что одним контентом не справиться?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Имелась ввиду подргузка данных макросом GETMORECONTENT

    Ссылки недоступны для гостей
     
    aresa нравится это.
  7. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Спасибо огромное!
    Буду разбираться и осваивать. Раньше не пользовался, обходился без этого макроса.
    Для этого подписка ultimate должна быть?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Этот макрос есть в программе с любым типом лицензии.
     
    aresa нравится это.

Поделиться этой страницей