Не могу понять как

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем varikowa, 24 янв 2013.

  1. varikowa

    varikowa New Member Пользователи

    Регистрация:
    24 янв 2013
    Сообщения:
    2
    Нужно скачать примерно более 400 резюме с сайта. Вручную это глупо, когда под рукой Content Downloader. беда только в том, что не могу понять как это сделать. Понимаю, что сделано на PHP, но сути не понимаю что к чему.

    Вот есть ссылки такого формата _http://адрес_сайта.ру/jscripts/doc_file_rezume.php?id=***. Вместо звездочек id конкретного резюме. ПРи нажатии на эту ссылку загружается резюме в вордовском формате.

    Есть список ссылок с id, которые нужно скачать. Но как их скачать, ведь ссылка не ведет на конкретный документ, а просто вытягивает его из базы?

    Очень буду благодарен помощи.
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    Ссылки недоступны для гостей
    это если самостоятельно. httpfox в руки и в бой.

    если же нужна помощь - дайте конкретную ссылку. вытягивание контента с заскриптованных сайтов - одна из самых сложных задач парсинга, которая далеко не всегда решаема в принципе. ну а вести о ней разговор на словах - отвлеченно от конкретного источника - это просто потеря времени.
     
  3. varikowa

    varikowa New Member Пользователи

    Регистрация:
    24 янв 2013
    Сообщения:
    2

    Сам не могу справиться. Помощь нужна. Отправил пример ссылки в личку.
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    прилагаю проект. пароль в ЛС. кажется, это очень близко к тому, о чем вы писали. к слову, никаких там скриптов нет. либо вы не с того конца стартовали. либо я не понял задачу.
    прежде чем парсить - сделайте поменьше ссылок, чтоб компьютер и сайт не удивились загрузкой нескольких десятков тысяч резюме (после 400-500 сайт начнет вас бортовать загружая каждое 4-5 резюме, поиграйтесь с паузой, потоками - может, поможет).

    важно: ни в одном резюме не будет контактной информации. она появляется в документах только после регистрации на сайте в качестве работодателя (именно работодателя а не простого пользователя!). сам я регистрироваться не захотел. что-то не получится с авторизацией - скидывайте мне свои регистрационные данные, возможно вместе поборемся.
     

    Вложения:

    • new-1.rar
      Размер файла:
      4,6 КБ
      Просмотров:
      2
    Последнее редактирование: 25 янв 2013

Поделиться этой страницей