Как спарсить резюме?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем владимри, 15 май 2013.

  1. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Люди добрые, помогите с сайтом Ссылки недоступны для гостей. При попытках спарсить резюме контактные данные скрыты. Подозреваю, что скрыты скриптом, но я новичок и не могу разобраться, как быть. Логин = aleksevgenia@gmail.com
    password = 45685213
     
    Последнее редактирование: 15 май 2013
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    по ходу этому сайту мало одних только кукисов в заголовке.
    скопировал все headers, теперь показывает все. пробуйте.
    если с вашего компа не заработает - отдельно распишу что и как сделать.
    чтоб разобраться самому - смотрите блок "дополнительно->custom_headers"
    проект сырой, настройка границ и прочее - все за вами.
     

    Вложения:

    Последнее редактирование: 16 май 2013
  3. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Огромное спасибо, буду благодарен за более подробные объяснения, что делать. Не хотелось бы напрягать, но я не понял, что за блок "дополнительно->custom_headers". Возможно, он добавлен в CD 3? Я пользуюсь CD II
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    Content Downloader II версии 2.57 (01.08.2012):
    - Добавлена возможность задавать любые custom headers к http-запросам программы (вкладка "контент" - кнопка "дополнительно");
    - Несколько доработок.

    честно говоря, не совсем понимаю смысл использования CD-2 при полной обратной совместимости CD-3 со старыми проектами, и наличии у него множества новых функций.

    кстати, по прошествии пары часов проект уже нерабочий. там кукисы быстро меняются, может привязка к времени идет или еще что-то, не знаю, не специалист в этом.

    решать так:

    1. обновиться на CD-3 (это можно сделать в отдельную папку, раз так сильно нужен CD-2). в принципе, все ниже сказанное будет работать и для второй версии, но разбираться что в ней есть, а чего еще нет - неблагодарный труд. так что работоспособность схемы под СД-2 не гарантирую
    2. авторизоваться на сайте в браузере Mozilla FireFox при включенном аддоне httpfox - скопировать из него все строки заголовков (http-headers) и вставить в окошко custom headers (вкладка "контент" - кнопка "дополнительно") по схеме в проекте, который приложен выше.
    после этого у меня все заработало. что-то из этих строк сайту надо, помимо кукисов. что именно, не разбирался.

    p.s. еще вариант - обновиться на сд-3 и прислать мне в личку ваш проект. вышлю назад рабочий. правда, рабочим он будет недолго.
     
    Последнее редактирование: 16 май 2013
  5. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Все понял. У меня еще древнее версия, поэтому и не нашел http-headers. Еще раз спасибо
     
  6. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    rosrabota.ru

    файл проекта
     

    Вложения:

  7. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    К сожалению, та же история: контакты не доступны. Может я что-то не так делаю? Я загрузил Ваш файл, залогинился POST-запросом, запустил парсинг
     
  8. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    вот результат работы вашего проекта с доработкой по указанной мною схеме. все на месте. проект правда странный какой-то, парсит все подряд - в результате в нем куча хлама.
    насчет нерабочего - проект очень быстро устаревает. видите, я предыдущее сообщение удалил. через 10 минут приложенный мною проект стал нерабочим. подозреваю, что предложенная мною схема действует только на время текущей сессии. а это означает - что вы должны авторизоваться, вставить headers в программу и сразу запустить парсинг.
     

    Вложения:

    • 99999999.RAR
      Размер файла:
      444,8 КБ
      Просмотров:
      1
    Последнее редактирование: 18 май 2013
  9. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Мне вообще оттуда нужны только е-мейлы с именами. Есть прога, которая выберет нужное из хлама. Я пока не пробовал экспериментировать с настройками границ парсинга. Совсем новичок.
    Может Вы подскажете, как мне найти нужные headers? Я пробовал устанавливать HttpFox, но при нажатии Shift+F2 (так вроде советовали в видео) у меня открывается командная строка в FireFox для отладки ява-скриптов. Установил HTTP-Live, но там куча headers, когда логинюсь, не знаю, что выбрать
     
  10. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Не получается вызвать окно плагина HttpFox с тех пор, как Shift+F2 назначили для командной строки в FireFox. Где-то прочитал совет ALT+V+H - тоже не работает
     
  11. владимри

    владимри New Member Пользователи

    Регистрация:
    15 май 2013
    Сообщения:
    11
    Пробовал экспериментировать с Http Live, не получается ничего. Не разбираюсь я в этих header. Как понять, какие нужны?
     
  12. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    ICQ или Skype свои давайте, переписываться на форуме смысла нет.
     

Поделиться этой страницей