Не могу собрать ссылки с сайта.

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Sima, 2 сен 2015.

  1. Sima

    Sima New Member Пользователи

    Регистрация:
    11 дек 2014
    Сообщения:
    7
    Через сканер сайтов перестали собираться ссылки.

    Работало все нормально, одну "ветку сайта" собрал без проблем, вторая "ветка" (отличается только одной цифрой в названии) не идет даже когда все фильтры убраны, в списке очереди не появляется ни одного URL. Попробовал с параметрами первой "ветки" - тоже перестал сканировать.
    При этом через броузер на сайт захожу - по IP бана нет.

    Проверил - при попытке просмотра дает сообщение:
    "Программе не удалось загрузить WEB-страницу (HTTP/1.1 500 Internal Server Error"

    Все-таки закрыли сайт от парсинга?

    Заходил с разных IP.

    Сайт похоже на UCOZ.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Нужно ваш файл проекта посмотреть (в программе: меню - файл - сохранить проект).
     
  3. Sima

    Sima New Member Пользователи

    Регистрация:
    11 дек 2014
    Сообщения:
    7
    Файлы проектов :
    1 - создан из действовавшего проекта
    2 - создан заново
     

    Вложения:

    • v1.cdp
      Размер файла:
      27,5 КБ
      Просмотров:
      2
    • v2.cdp
      Размер файла:
      27 КБ
      Просмотров:
      1
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Стартовый URL в сканере сайтов из вашего первого проекта ведет на несуществующую страницу:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Во втором проекте стартовый URL сканера пуст.

    Проблема в том, что стартовая ссылка в сканере некорректная!

    С уважением к вам, Сергей.
     
  5. Sima

    Sima New Member Пользователи

    Регистрация:
    11 дек 2014
    Сообщения:
    7
    Спасибо, снова все работает :)
    Видимо где-то при копировании ссылок накосячил :)
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Возможно.

    Пожалуйста. Обращайтесь...
     
  7. Sima

    Sima New Member Пользователи

    Регистрация:
    11 дек 2014
    Сообщения:
    7
    Видимо я поторопился :( Снова та же картина (ошибка).
    Только что все работало, скачал порцию url, при попытке повторить или разметить парсинг - 500-ая ошибка.
    Посылаю файл проекта и скан экрана с ошибкой.
    Может быть дело в рекламе, которая там ложиться "поверх всего"?
     

    Вложения:

    • v3.cdp
      Размер файла:
      27,5 КБ
      Просмотров:
      1
    • 11.jpg
      11.jpg
      Размер файла:
      86,1 КБ
      Просмотров:
      0
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Думаю, это реакция сайта на частые запросы к нему.

    Как обойти это:
    1) Использовать 1 поток при парсинге;
    2) Либо использовать прокси (ctrl+r).

    С уважением к вам, Сергей.
     
  9. Sima

    Sima New Member Пользователи

    Регистрация:
    11 дек 2014
    Сообщения:
    7
    парсил в 1 поток с задержкой 500 мс и через TOR, но видимо как-то вычисляют :(
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Без TOR попробуйте 1 поток и задержка 2000-3000. Если не поможет, то тогда, думаю, только платные SOCKS-прокси.
     

Поделиться этой страницей