ответы мэйл

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем mazay, 6 апр 2012.

  1. mazay

    mazay New Member Пользователи

    Регистрация:
    6 апр 2012
    Сообщения:
    1
    Завожу формулу http://search.otvet.mail.ru/?q={key}&sf={num},
    вставляю кеи, она мне парсит ссылки и выдает такое:

    Код:
    http://top100.rambler.ru/top100/
    http://otvet.mail.ru
    http://mail.ru
    http://search.otvet.mail.ru/#
    http://win.mail.ru/cgi-bin/signup
    http://www.mail.ru/pages/help/92.html
    http://otvet.mail.ru/open/
    http://otvet.mail.ru/ask/?cid=11
    http://otvet.mail.ru/golden/
    http://otvet.mail.ru/
    http://search.otvet.mail.ru/?big=1&q...E0%E2%E8%F2%FC
    http://search.otvet.mail.ru/?q=%EA%E...2%FC&zvstate=3
    http://search.otvet.mail.ru/?q=%EA%E...2%FC&zvstate=2
    http://search.otvet.mail.ru/?q=%EA%E...2%FC&zvstate=1
    http://search.otvet.mail.ru/?q=%EA%E...8%F2%FC&s=zdts
    http://otvet.mail.ru/question/73695424/
    http://otvet.mail.ru/http://otvet.ma...ion/73695424//
    http://www.mail.ru/agent?message&to=...randak@mail.ru
    http://otvet.mail.ru/mail/seregasharandak/
    Что это может быть такое и как это исправить?
     
    Последнее редактирование модератором: 30 июн 2013
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё зависит от того, что вы делаете, и что хотите получить?

    1. Как Ссылки недоступны для гостей показано в этом видеоуроке. Ту "формулу", что вы задаёте надо ввести в брайзере, чтобы посмотреть примерный диапазон цифр, который вам может понадобиться. То есть, чтобы увидеть нечто такое
    Код:
    http://otvet.mail.ru/question/56288604/
    Далее, надо проанализировать, что там мэйл.ру может предложить, и выбрать из данного диапазона цифр нужный вам диапазон, вот его и надо будет задать в программе Content Downloader. Получите ссылки, и по заданному проекты, спарсите ответы. Диапазон можно задавать ориентировочно, чтобы войти в нужное количество спарсенного материала.

    2. Существует и второй вариант, когда вы хотите получить точное вхождение из списка, выданного выдачей. Тогда проект нужно составлять иначе. Сначала надо будет сгенерировать определённое количество страниц, по показанной вами формуле, затем получить с сгенерированных страниц ссылки, и только полсе этого, парсить сами проекты.

    3. Чтобы программа выдавала "правильные" ссылки, когда вы ей "вставляете" кеи,
    Нужно задать фильтры парсинга ссылок. Там ничего сложного нет
    В поле "Задать шаблон для ссылок" надо "вставить"
    Код:
    http://otvet.mail.ru/question/
    Чуть ниже задать "глубину ссылок" от 3 до 3. И всё, избавитесь от ненужного мусора
     
    Последнее редактирование: 6 апр 2012
  3. xrumchik

    xrumchik New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    10
    подскажите что я делаю не так что у меня не получается отсеять ссылки на ответы?

    [​IMG]
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    проблема отсутствует как таковая. все норм. работает. прилагаю проект.

    из того, что мне непонятно в вашем скрине и, вероятно (не устверждаю, просто предположил), является ошибкой -

    1. при чем тут сканер? изначально вы ставили задачу по-другому, и Valiks дал вам совершенно правильный совет. хотя, это должно действовать и для сканера. если у вас старая версия КД, обновите программу.

    2. снимите флажок с опции "только с данного сайта". она означает, что фильтр ссылок будет отсевать ВСЁ, что не начинается с Ссылки недоступны для гостей -- по мнению программы, это и есть сайт. сами понимаете, если вы в фильтре поставите Ссылки недоступны для гостей - то это уже другой сайт, и вкупе с опцией "С данного сайта" он даст закономерный ноль.
     

    Вложения:

  5. xrumchik

    xrumchik New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    10
    Спасибо действительно была проблема в галочке. Если можно киньте проэкт где берутся только ответы со страницы без мусора и фоток
     

Поделиться этой страницей