DOWNLOADFILE бан по ip

Тема в разделе "Решение различных задач по парсингу", создана пользователем Funny Ferret, 18 июл 2015.

  1. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Добавлены прокси

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    все скачивается и сохраняется как и было задумано НО ловлю бан по ip, бан именно по моему ip, а не по ip одного из прокси. Бан ловится только при загрузке файлов, при этом если запустить CD он нормально скачивает обычные странички, но файлы естественно не скачивает.

    лог:

    [​IMG]

    видно что прокси используются, но все равно банится мой ip, если убрать DOWNLOADFILE то все нормально.

    Единственное что приходит в голову - прокси используются для страниц, а вот файлы грузятся без прокси, как сделать что бы и файлы грузились через прокси?
     

    Вложения:

    • 1.png
      1.png
      Размер файла:
      56,2 КБ
      Просмотров:
      4
    • 2.png
      2.png
      Размер файла:
      150,1 КБ
      Просмотров:
      36
    Последнее редактирование: 18 июл 2015
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Так происходит со всеми ссылками?
    т.е. если вы хватаете бан скажем раз в 5 минут
    то просто сделайте в 1 поток и паузу в 3-10 секунд.
     
  3. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Да, со всеми ссылками.

    1 поток с паузой 3 секунды работает нормально, но мне бы хотелось спарсить сайт быстрее чем за 3 месяца.

    Главный вопрос: то что DOWNLOADFILE не использует прокси это так и задумано?
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Не могу сказать, появится Root ответит.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Макрос DOWNLOADFILE использует прокси.

    Простите, но не знаю, в чем проблема у вас. Возможно, "плохие" прокси.

    С уважением к вам, Сергей.
     
  6. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Это может быть связано с тем что в DOWNLOADFILE передается не прямая ссылка на файл, а ссылка на страницу с которой идет редирект на файл?
     
  7. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Прокси разные пробовал, даже только с максимальной секретностью, всеравно при загрузке файлов бан моего ip/
     
  8. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Проблема так и не решена.
    Пробовал:
    Использовать только Socks прокси,
    Использовать только прокси с высокой анонимностью (Удалённый сервер не знает ваш IP, и у него нет прямых доказательств, что вы используете прокси (заголовков из семейства прокси-информации).)

    Итог один - бан моего ip, CD перестает загружать файлы, и при этом продолжает нормально грузить текстовые страницы (повторюсь - если убрать DOWNLOADFILE то бана нет)

    Бана нет только если парсить в 1 поток с задержкой 3сек. но при таком раскладе общее время загрузки 321 день...
     
    Последнее редактирование: 20 июл 2015
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ну а что говорит загрузка прямой ссылки?
    Скорее всего, там надо wbapp это делать
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    В фильтре (ctrl+3) ссылок отметьте "удалять www. от каждой ссылки" - избавитесь от дублей.
    Касаемо бана - на скринах у вас фигурирует только один User-Agent, добавьте еще 100 от мозилы и пробуйте парсить.
     
    Последнее редактирование: 20 июл 2015
  11. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    User-Agent вписал побольше, но это ситуацию не изменило, проблема-то в том что несмотря на использование прокси (см. выше - пробовал только полностью анонимные) каким-то образом , при использовании DOWNLOADFILE, палится мой ip.

    Kreol, а вот это уже интересней, если подставить прямую ссылку в DOWNLOADFILE то, похоже, все нормально.

    Остается получить прямую ссылку, казалось бы...

    Страница
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    на ней ссылка на файл
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    с нее идет редирект на
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    попробовал так:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    и так
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    в ответ:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    при открытии в браузере этой ссылки:

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**

    как видим, сервер английским по белому говорит что 302 Moved Temporarily и посылает на Location:
    куки все передаю, реферер не обязателен, проверял.

    Вопрос: почему в этой ситуации может не срабатывать GETREDIRECT
     
    Последнее редактирование: 20 июл 2015
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Передайте cookies в окно ctrl+h и макрос DOWNLOADFILE Должен грузить. Проект прилагаю.
     

    Вложения:

    • imslp_org.cdp
      Размер файла:
      27,1 КБ
      Просмотров:
      19
  13. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    Вы о чем???
    Фай грузится, проблемы в этом не было никогда.

    1 проблема: несмотря на использование прокси палится и банится мой ip
    Опытным путем установлено что мой ip банится только если использовать DOWNLOADFILE и передавать туда не прямую ссылку на файл а страницу с редиректом.

    На решение этого я забил и попытался в DOWNLOADFILE передавать прямую ссылку на файл, отсюда
    2 проблема, не срабатывает GETREDIRECT (подробности описаны выше).
     
  14. Funny Ferret

    Funny Ferret New Member Пользователи

    Регистрация:
    9 мар 2015
    Сообщения:
    37
    PHP_SCRIPT все исправил
     

Поделиться этой страницей