Не парсится через прокси, висит 1 поток.

Тема в разделе "Решение проблем с использованием программы", создана пользователем rdw, 10 июл 2017.

Метки:
  1. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Здравствуйте.
    Так как на ресурсе нет карты сайта, то парсил список ссылок. Использовал заранее купленный список прокси, работало где-то в 50 потоков, всё было нормально. Прокси регулярно менял. Потом вдруг после нажатия кнопки "начать/продолжить" процесс не идёт, в списке потоков постоянно висит (1) и медленно растёт число на кнопке "незагруженные ссылки". Количество потоков не растёт. Ссылок в очереди около миллиона, найдено ссылок примерно столько же.
    Пробовал парсить напрямую со своего ip - всё идет как по маслу.
    Прокси покупал пакетные, пробовал разные, вводил сервера с проверкой как указано в FAQ.
     
  2. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    скорей всего проксям писец подкрался незаметно)) Если с основного парсит, то попробуйте другие прокси взять, не паблик, а по штучные платные. И какого вида у Вас прокси, хттп или соксы? И немного ли 50 потоков, хотя и прокси есть. Паузу какую ставили, может поиграться надо? Юзер агенты добавляли или только тот, который в программе вписан?
     
  3. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Я использовал разные прокси, после того как проблема объявилась. Покупал в разных местах. С пазуами и количеством потоков игрался - ноль эмоций. Юзер агент тоже пытался менять.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.561
    Как обычно в таких случаях приводят адрес или пример проекта своего.
    А так можно вам помочь разве что словами "Ну чтож, сочуствуем"
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.115
    Город:
    Сочи
    Лучше пару прокси для теста предоставьте.
     
  6. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 40 постов.**
     
  7. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    В главном окне вверху "кнопка" Логи, при парсинге, показываются действия работы программы.
     
  8. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    284
    Добрый день! Прикрепите лучше проект. Попробуем.

    Сканером сайта ссылки собираются. Сейчас собрал(через Advor) в три потока за несколько минут с данного сайта больше 7000 ссылок.
     
  9. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    У меня тоже собирались раньше. Напарсил уже больше миллиона. Причем с моего ip всё нормально парсится и сейчас, а с помощью прокси (пробовал у нескольких сервисов брать пакеты) вдруг перестало.
    Проект приложил
     

    Вложения:

    • az.cdp
      Размер файла:
      34,3 КБ
      Просмотров:
      2
  10. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    284
    А вы уверены, что ссылок больше миллиона? Гуглоиндекс показывает по запросу
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    "примерно 318 000".
     
    Последнее редактирование: 12 июл 2017
  11. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    284
    Пардон, в немецком не силён. Сайт парсится(у меня через Advor, а может можно и без него). Мне показалось, что что дело не в проксях. Ваш проект не парсился совсем. После задания границ парсинга заново заработало без всяких платных прокси(через Advor - 3 потока без пауз). Вот ваш проект, только некрасиво изменённый. После 360 статей я остановил парсинг. Доработаете, как нужно.
     

    Вложения:

    • az.cdp
      Размер файла:
      486,8 КБ
      Просмотров:
      1
    Последнее редактирование: 12 июл 2017
  12. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Да, уверен. Гугл скушал только 318к почему-то, видимо там много незаполненных страниц.

    Без использования прокси у меня тоже парсится без проблем. Подскажите, что Вы изменили в настройках парсинга ссылок я не у видел? Вроде тот же проект, только Вы ссылки добавили уже в проект, а я их в бекапе держу, пока всё не спаршу.
     
  13. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    284
    См. выше. В сканере сайта ничего кардинально не менял. Чуть фильтрацию поправил. А во вкладке контент задал заново границы парсинга. Было неправильно. Предпросмотр контента вашего проекта без прокси у меня показал это
    Код:
    [CATS][/CATS] [CATS][/CATS] - 
    Т.е. никаких результатов.

    А парсил через Advor (считайте, через прокси).

    PS Кажется, у меня для вас плохие новости. Проверьте результат парсинга со своим проектом! ;)
     
    Последнее редактирование: 13 июл 2017
  14. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Я контент еще не парсил, поэтому и границы для парсинга не задавал. Я пока только собираю ссылки для парсинга, так как на сайте отсутствует карта сайта. Разве границы нужно сразу задавать?
    У меня в списке выдачи ссылок урл только с
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    , других нет
     
  15. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    284
    Сразу - необязательно. Просмотрел, что в первом сообщении проблема с парсингом ссылок.
    Однако, в вашем проекте границы заданы.

    В фильтре лучше, по-моему, .html, т.к. попадаются ссылки типа /songtexte/browse/x/ , которые не содержат нужный контент.

    А почему у вас не парсятся ссылки, непонятно. У меня парсятся. Попробуйте прикрепить остановленный на проблемном месте проект.
     
    Последнее редактирование: 14 июл 2017
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.542
    Возможно бан.
     
  17. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Спасибо за помощь. Не знаю, что произошло, но теперь парсится))
    Хотел еще поинтересоваться есть ли в CD функция при парсинге контента удалять страницы если там встречается определённое слово. На этом сайте есть полупустые страницы без текстов, например:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 50 постов.**
    Есть ли возможность, чтобы CD такие страницы пропускал?
     
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.542
    Здравствуйте
    используйте фильтрацию ctrl+shift+f
     
  19. rdw

    rdw New Member Пользователи

    Регистрация:
    31 май 2017
    Сообщения:
    45
    Спасибо, получилось отфильтровать ненужные страницы. Но столкнулся с другой проблемой. На некоторых страницах сайта контенте появляется не сразу, сначала секунд 10 висит надпись типа "подождите контент загружается", а потом собственно нужный текст подгружается, но в коде он начинает отображается только если страницу обновить.
    Я попытался добавить событие WBApp, которое бы реагировало на эту надпись "подождите контент загружается" и перезагружало страницу через 10 секунд и еще пробовал создать событие которое реагировало бы на появление в тексте нужно id DIV'a. Но вышло в результате после проверки выяснилось, что все нормальные страницы с текстом стали парситься с пустыми границами, плюс ко всему фильтрация ctrl+shift+f перестала учитываться, и стало еще больше пустых документов.
    Подскажите, может есть другое решение моей проблемы и можно как-то иначе заставить CD доставать текст со страниц, где нужный контент загружается не сразу?
     
  20. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    360
    После включения IE DOM необходимо заново задать границы парсинга. Этот метод по-другому обрабатывает код.
     
    Последнее редактирование: 7 окт 2017
    Root нравится это.

Поделиться этой страницей