Парсинг ссылок через подгружаемый sitemap.hml

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем adislav, 5 апр 2015.

  1. adislav

    adislav New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    11
    доброе утро)
    совершенно случайно нашел эту замечательную функцию в программе
    но!
    карта сайта, с которого мне нужно собрать ссылки подгружается динамически (выдает порциями по 3-4 000 ссылок)
    мне же нужно их получить порядка миллиона! (это при включенных фильтрах)
    при этом, сколько именно их должно получиться, я не в курсе(
    пробовал грузить "вручную", повторно нажимая на кнопку загрузки - загрузил таким образом неупорядоченный список в ~700 000 строк
    решил их отсортировать по алфавиту, но при после сортировки следующее нажатие кнопки загрузки привело к сбросу списка (я не указал файл, куда эти ссылки записывать:sweat:)
    как в принципе можно автоматизировать подобный процесс?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.765
    Здравствуйте.

    Нужно предоставить ссылку на вышеуказанную карту сайта, чтобы мы вам попытались дать решение задачи.

    С уважением к вам, Сергей.
     
  3. adislav

    adislav New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    11
    вряд ли это поможет(
    как выяснилось, карта сайта не динамически подеружается, а всего отдает около 4000 ссылок
    а, если тыкать кнопку загрузки, то создается иллюзия подгрузки новых страниц
    как получить полную карту, без понятия:sad:
    адрес карты:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.765
    Если в карте сайта находятся не все ссылки, собирайте ссылки сканером сайтов (ctrl+7).
     
  5. adislav

    adislav New Member Пользователи

    Регистрация:
    28 мар 2015
    Сообщения:
    11
    сканер ссылок не справляется(
    уже дважды запускал и оба раза он переставал парсить список после ~40-50 000 ссылок
    при чем, что удивительно, когда я только купил программу (это было недавно, вышло после этого всего несколько обновлений) я натравливал сканер на этот же сайт и точно помню, что он спарсил около полумиллиона ссылок и лишь по моей неопытности я куда-то не туда нажал и сбросил очередь в ноль
    а сейчас явно что-то не так (правда, неделю назад фантлаб полностью перешел на ssl3 и существенно подлатал защиту от "негуманоидов", наверняка связано с этим)
    хотя, напр, Web Link Validator, хоть и медленно (в 1 поток и с паузой в секунду между линками), но уверенно вытаскивает всю карту сайта
    правда, именно на фантлаб, из-за ограничений по скорости и количеству соединений, уходит обычно 7-8 дней круглосуточной работы программы
    =
    при этом встроенный сканер полмиллиона ссылок, когда я его запускал, спарсил за ночь и жаль, что сейчас он перестал дружить с этим ресурсом(
     

Поделиться этой страницей