Сканер сайтов останавливается

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем Denison, 31 дек 2017.

  1. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Программа "Сканер сайтов" запустилась нашла очень много ссылок, а потом просто встала и ничего не происходит, не зависла, а просто остановилась 10-15 минут ничего не происходит, после включилась опять собрала ссылок и потом опять встала и больше ссылки не собирает.

    - было загружено 1500 сайтов
    - сбор на 20 потоках, без прокси
    - стоял фильтр по сбору ссылок на определенный тип ссылок
    - антивирус стоит бесплатный Касперский (программа добавлена в доверенные)

    Первый раз собрала 150.000 ссылок и встала (не обработанных осталось больше 80.000)
    Второй раз собрала 35.000 ссылок и встала (не обработанных осталось 20.000)

    В чем проблема?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Программа просто так не останавливается.

    Либо она грузит большой код WEB-страницы, либо обрабатывает данные (опять же получив большой код).

    Попробуйте установить:
    2017-12-31_20-45-33.png

    Также убедитесь, что корректно настроили фильтры ссылок и фильтры очереди ссылок Ссылки недоступны для гостей

    Если проблема повторится, приложите файл проекта для теста.
     
  3. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Администратору троекратное УРА УРА УРА !!
    100 тыщ. помогло, поставил 200 тыщ. на всякий пожарный!
    Теперь процесс перешел совершенно на другой уровень!
    Благодарю и всех благ!
     
    Root нравится это.
  4. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Здравия! При каких настройках Сканера сайтов, можно получить все ссылки сайтов находящихся в Яндекс Каталоге ? - Ссылки недоступны для гостей
    у меня получилось только 4000 ссылок получить... из 115458

    [​IMG]
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей имеет только 100 страниц.
     
  6. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Мне не понятен ответ, что значит 100 страниц? Мне нужно получить все ссылки сайтов из Яндекс каталога, их там 115458 штук. При текущих настройках спарсилось только 4000 ссылок
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Это значит что как спросили так соответственно получили ответ. :D
    Яндекс как в каталоге так и на всех своих сервисах ограничил лимитом категорийные страницы до 100.

    Попробовал посканировать, каптча часто попадается и прокси (8000 socks5) получает бестолковую страницу каптчи вместо страницы каталога.
     
    Denison нравится это.
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Былоб хорошо чтоб в настройках прокси на видном месте присутствовал этот параметр. В основном при прокси приходиться трогать этот пункт, указывая лимит времени побольше.
     
  9. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Здравия. Еще один вопрос по Сканеру сайтов.
    Что может быть проще собрать все ссылки с этого сайта по Бизнес тематике Ссылки недоступны для гостей
    НО из 953 ссылок программа собирает всего 71
    Может я в упор что-то делаю не так, укажите мне мою ошибку ??

    Поправка! Там используется скрипт при переходе на внешние сайты и скорей всего поэтому программа не может вытащить оттуда ссылку
    Вопрос как выцепить из этого HTML кода ссылку? <a href="/go.php?161528985" target="top">silverjeep.org</a>

    [​IMG]
     
    Последнее редактирование: 3 янв 2018
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").

    2018-01-03_10-45-05.png
     

    Вложения:

    • scan.cdp
      Размер файла:
      35,2 КБ
      Просмотров:
      1
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Потребовалась доработка.

    Еще раз:
    Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").

    И:
    2018-01-03_10-59-41.png
     

    Вложения:

    • scan.cdp
      Размер файла:
      35,2 КБ
      Просмотров:
      0
  12. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    С GET понятно, но пока честно говоря не понял глубинной сути этого выражения Ссылки недоступны для гостей"top">{get}</a> и как там подставился адрес сайтов после http://
    И куда делись остальные слова target="top">? Но все получилось.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Там в окне все доступно расписано. Проблем с пониманием этого быть не должно.
     
  14. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Еще один вопрос, при всех данных которые теперь знаю, не получается получить ссылки с этого раздела Ссылки недоступны для гостей
    Не могу получить ни одной ссылки с данного раздела ..

    Так же не могу получить ни одной ссылки с этого раздела Ссылки недоступны для гостей

    Уже что только не пробовал .. но видимо я не могу или программа не может, с другими сайтами все нормально получается.
     
    Последнее редактирование: 3 янв 2018
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прочтите:
    Ссылки недоступны для гостей
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    И вы должны понимать, что Яндекс банит за частые запросы к нему (выдает каптчу). Тут в угоду пойдут качественные покупные прокси в большом количестве.
     

    Вложения:

    • yanca.cdp
      Размер файла:
      35,2 КБ
      Просмотров:
      0
  18. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Да, понял. Благодарю.
    Подскажите еще, в выдачу постоянно сыплется много дублей хостов, как сделать чтобы дубли фильтровались в выдаче ссылок?
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Что значит дубли хостов? Приведите пример.

    Дубли ссылок и так фильтруются.
     
  20. Denison

    Denison New Member Пользователи

    Регистрация:
    31 дек 2017
    Сообщения:
    9
    Город:
    Сочи
    Стоит фильтр "Собирать только внешние ссылки"

    [​IMG] [​IMG] [​IMG]
     

Поделиться этой страницей