Лог (не)загруженных файлов

Тема в разделе "Решение проблем с использованием программы", создана пользователем vatnick, 8 сен 2014.

  1. vatnick

    vatnick New Member Пользователи

    Регистрация:
    27 мар 2014
    Сообщения:
    30
    Как продолжение темы, когда надо спарсить много файлов с 1 страницы, и сервер отдающий файлы банит за частые запросы.

    Я сделал "проход", у меня загрузилось предположим 75% файлов. Я хочу их докачать.
    1. Можно ли как-то из лог-файла к примеру получить список всех файлов которые не закачались и дозагрузить их? Я так понимаю что на данный момент в логе адреса загруженных файлов не отображаются.

    Мне видится еще такой "ручной" способ создания лога. Первый раз парсим как обычно, часть файлов не загружается. Затем, парсим все в 1 файл, из шаблона вывода оставляем только ссылку на загрузку, а после скармливаем уже список ссылок. Но тут есть проблема, что иногда имена файлов на 1 странице совпадают (на самом деле это баг сайта-донора, но как отфильтровать это я не придумал), и CD по непонятной мне логике добавляет им в конец цифры, соответственно:
    2. Не будет ли тут расхождения в названиях файлов записанных при первом проходе и сохраненных в ходе второй загрузки?
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Список файлов в лог не записывается...
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Попробуйте парсить в 1 поток...
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Выложите файл проекта либо сюда, либо, если не хотите публиковать, вышлите его мне на почту. Я посмотрю, по какой причине файлы не догружаются и попытаюсь найти решение вашей задачи.
    Спасибо!
     
  5. vatnick

    vatnick New Member Пользователи

    Регистрация:
    27 мар 2014
    Сообщения:
    30
    Скинул на почту.
    В 1 поток тож не хочет загружать все файлы, все равно что-то пропускается.
    Пока сделаю так: загружу-ка я все сначала без файлов, затем соберу их список и загружу его отдельно. Но какое-нибудь решение поэлегантнее все-таки хотелось бы увидеть :)
     
  6. vatnick

    vatnick New Member Пользователи

    Регистрация:
    27 мар 2014
    Сообщения:
    30
    Кстати не по теме но заметил баг, несмотря на задание имени папки в разделе настроек макроса DOWNLOADFILE она все равно остается files/, перезагрузка программы не помогает.
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    поверх <DOWNLOAD> примените [REPLACE(files/|)]
    Это чтоб было не скучно работать
     
  8. vatnick

    vatnick New Member Пользователи

    Регистрация:
    27 мар 2014
    Сообщения:
    30
    Ну да, решить-то можно, но баг есть баг)
    Свою проблему пока решил добавлением поверх того же <DOWNLOAD> тега [MUSTBE], ну и несколькими проходами.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это не баг! Вы используете [DFN], следовательно, все остальные опции для имен файлов и папок не имеют силы. Вам нужно имя папки дописать в DFN:
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    А вот решение поэлегантнее, должно вам помочь в решении вашей задачи:
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Как я понял ТС хочет избавится от папки вообще, чем прописывание папки поможет?
    Если в настройках <DOWNLOADFILE> удалить даже папку files то это никак не повлияет на то путь сохранения. Даже если не использовать [DFN]
     
  12. vatnick

    vatnick New Member Пользователи

    Регистрация:
    27 мар 2014
    Сообщения:
    30
    Спасибо. Стало полегче, но все равно процент незагрузок доходит до половины, это как говорится решаемо. Все-таки последний вопрос на который я так и не получил - каждый запрос на DOWNLOADFILE = новый прокси?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, да, новый прокси...
    Тогда вам нужно просто список хороших прокси и проблема, уверен, решится!
    С уважением к вам, Сергей.
     

Поделиться этой страницей