Не работает DOWNLOADFILE через плохие прокси

Тема в разделе "Скачивание картинок и файлов", создана пользователем Octavian, 6 дек 2016.

  1. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Здравствуйте
    По неустановленной причине при работе через прокси DOWNLOADFILE не загружает картинку, остальные поля грузятся отлично. В настройках прокси макрос включен. Большие таймауты не помогают. В логах - Программе не удалось загрузить файл (Connection Closed Gracefully.)
     
  2. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Добрый день,
    Приложил обычный пример.
    Скачивание через Прокси сервера TOR работают на отлично.
    Через публичные http прокси не хочет.
    Рекомендую использовать Прокси от TOR.
    Вот ссылка на инструкцию:
    http://forum.sbfactory.ru/threads/proxy-dlja-content-downloader-ispolzuja-tor.296/
    Плюсы:
    1) В прокси листе пишете только 1 прокси, 127.0.0.1:9050
    2) Прокси сам меняется каждые 30 секунд в программе Advor.
    3) При желание можно нажать кнопку New identity. Это мгновенно поменяет ваш адресс.
    4) Скорость парсинга намного быстрее. (так как при использование большога списка прокси серверов переключение между ними занимает какоето время - а в данном случае Content downloader видит только один прокси)
     

    Вложения:

    kagorec и Root нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  4. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Спасибо, дело было именно в этой настройке
    Однако с данным макросом через прокси есть еще один трабл. В списке даже самых элитных попадаются неустойчивые соединения, не говоря уже про тор и паблик. Поэтому часто некоторые файлы не загружаются, хотя соответствующая строка в таблице есть, потом приходится вручную выискивать соответствия.
    Нету ли такой функции - если файл через макрос не загрузился, то брать следующий прокси в списке пока не будет удачной загрузки?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2016-12-07_19-26-02.png
     
    napserious нравится это.
  6. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Спасибо, то что надо.
    Осталась еще незагрузка картинок по причине ложной загрузки кода страницы. То есть в таблице только результаты макросов INT_ID и CD_DOCURL! - парсинг чистого документа. На бан айпи не похоже, поскольку в следующем цикле они загружают полный код. Таких ошибок примерно десятая часть. Один поток и большие паузы результата не дали. Какая может быть причина этого?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Предоставьте адрес страницы товара(?)
    Предоставьте адрес "плохой" картинки
    Предоставьте адрес "хорошей" картинки
     
  8. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Возможно вы не поняли мой предыдущий пост. Нету вообще никакой картинки, потому что код не загружен, парсится чистая страница, соответственно все поля документа пустые в том числе границы картинки. При этом в логах удачная загрузка.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я сейчас буду угадывать, так как недостаточно данных для составления конкретного ответа - неэффективно!

    Некоторые сайты могут отдавать определенное количество документов за единицу времени. Попробуйте парсить в 1 поток.
     
    Последнее редактирование: 8 дек 2016
    kagorec нравится это.
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Смотрите лог парсинга ctrl+l и попробуйте сделать выборочный предпросмотр результатов парсинга для ссылок, которые являются проблемными. Если при предпросмотре с данными все ok, то уменьшайте количество потоков при парсинге!
     
  11. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Я парсил в один поток и даже паузы в 10 секунд ставил не помогло. Очень похоже на случай когда в результате бана вылазит антикапча и соответственно все поля пустые, но парадокс в том, что через несколько секунд в следующем цикле этот же айпи загружает полный код.
    Решил вопрос сменой поставщика прокси но загадка так и осталась нерешенной
    Если вам будет интересно список прокси могу предоставить
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тогда понятно, что некоторые прокси не загружают код страницы и в этих случаях вы получаете пустые документы.
    2016-12-10_09-40-22.png
     
  13. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Дописал в код
    [CHECKENTRY([ANYTEXT])]<CD_GRAN_5!>[ELSETEXT][RELOADDOCUMENT][/CHECKENTRY]
    Поставил в RELOADDOCUMENT 20 попыток, 1 поток
    Результата нет
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проект протестировал без прокси - все ok!
    В программе все задействованные при этом функции перепроверил - вроде все ok!
    Единственная рекомендация:
    2016-12-10_13-11-34.png
     
  16. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Спасибо
    Проверил на другом списке прокси, в который подкинул заведомо забаненный айпи. Комбинация CHECKENTRY RELOADDOCUMENT не срабатывает
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  18. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    В данном случае меня сбила с толку настройка в окне автоматизации парсинга. Я выставил условие остановки на бан когда пятая граница пустая и оно работало. Теперь догадываюсь что это не бан был а капча, верно?
    Сейчас RELOADDOCUMENT работает, но стали прыгать значения INT_ID. 1-й, который в первом столбце таблицы часто пропускает их, после 74-го идет 76. А 2-й, который номера картинкам присваивает, повторяет картинки под разными номерами, в результате их больше чем строк в таблице и они друг другу не соответствуют
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    На днях что-нибудь придумаю.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул

Поделиться этой страницей