помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Конечно неправ

    Чтобы получить картинки средних размеров, надо задать такие вот настроки.

    Ссылки недоступны для гостей - Ссылки недоступны для гостей

    Чтобы получить картинки больших размеров, надо задать в окошке "настройки повторяющихся границ", в поле "прописывать в начало", вот такой код http://kuz.ua/modules/pages/pictures/

    С описанием, придётся повозиться
     
    Последнее редактирование: 13 мар 2012
  2. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Подскажите пожалуйста как задать границы парсинга телефонных номеров на бибика.ру, там номера скрыты и в коде мне трудно разобраться.
     
  3. Diabet

    Diabet Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    114
    спасибо попробую повозиться может выйдет
    кстати прога суперовая я бы купил вечный ключ если есть такой
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сейчас условия изменились на сайте-доноре. Там телефон можно получить только в виде картинки.
     

    Вложения:

    Последнее редактирование: 13 мар 2012
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ключ и так вечный, то есть вам предоставляется пожизненная возможность получать обновления.
     
  6. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Выражаю огромную благодарность службе поддержки в лице Valiks и cagorec, которые вникли в особенности моей задачи и как могли старались мне помочь. Решение для одной из трёх было найдено, а две оставшихся остались технически за пределами программной реализации. Это распознавание изображений. Разработчик программы Root вернул часть средств за что ему также большое спасибо. Заявленные функции программа отрабатывает.
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Нет предела совершенству, будем дерзать, и со временем появится в Content Downloader-е опция распознавания текста из картинок.
     
  8. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Доброго времени суток. Подскажите как парсить данный сайт Ссылки недоступны для гостей
    Нужно получить:
    Но каждый url вывода объявлений имеет Ссылки недоступны для гостей. И как с этого чуда парсить я не пойму.
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Собираете ссылки страниц с объявлениями в программе Content Downloader
    затем переходите во вкладку "Задание границ парсинга" (Ссылки недоступны для гостей подробности) и выбираете "Повторяющиеся границы". Для сбора текста объявлений вам одной границы должно хватить. Но там телефон спрятан скриптом, под него надо копать. Стучитесь в Скайп, приступим к поиску
     
  10. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Парсю бибику, задаю запрос Ссылки недоступны для гостей
    получаю выдачу сайта в виде 7733 а/м на 258 стр, т.е. должен собрать сканером сайтов порядка 7700 ссылок. Реально получается порядка 1500 даже без фильтрации. В чём подвох? Проект в аттаче.
     

    Вложения:

  11. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Неправильные настройки

    В приложении решение. 258 страниц, по 30 ссылок в каждой = 7740 в результате
     

    Вложения:

  12. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Рекомендую собирать ссылки по страницам используя вкладку "ссылки"
    В вашем проекте поправьте фильтр на Ссылки недоступны для гостей
    и поставьте интервал в 532 мс

    на всякий случай приложу к посту проект
    Посмотреть вложение bibika_ru_links_only.cdp

    п.с. упсс не заметил что уже есть ответ, два ответа лучше чем ниодного))
     
    Последнее редактирование: 20 мар 2012
  13. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Спасибо. Решение попробовал. Собирает ссылки с первых 51 страницы. Остальные 207 страниц проходит вхолостую. Найдено ссылок 1529.

    Второе решение тоже пробовал. Результат тот же. Обновил версию ПО, ничего не изменилось. Может быть видео приложить?
     
  14. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Это точно.
    Мы просто одновременно ответ писать началм, но, получилось хорошо, оба решения одинаково качественно дают спарсить ссылки
     
  15. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Используйте прокси, или задайте паузу между запросами побольше. Надо искать оптимальное время, чтобы на банило
    Если первый вариант используете, ставьте 1 поток
     
  16. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Странно ...
    1 поток ставлю, паузу довёл до 5 сек (5000мсек) уже, не банит (т.е. при и после сканирования открываю страницы сайта без проблем), а вот ссылок больше чем 1529 насобирать не удаётся.
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    В лицо узнаёт, наверное? Попробую чуть позже, скажу как решать.
    Попробуйте передать куки перед парсингом, может поможет. А другое решение я поищу, как освобожусь
     
    Последнее редактирование: 20 мар 2012
  18. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сайт довольно-таки замороченный. Если он очень нужен, то чтобы спарсить ссылки с него, придётся потратить кое-какое время. Действительно, через определённое количество страниц, прекращается сбор ссылок, если задавать диапазон.

    Однако, если парсить ссылки через "сканер сайтов" такого не происходит, парсится много тысяч ссылок. И тут зависит уже что вам и для чего нужно. Одноразово, на постоянку новинки или что-то ещё.

    По большому счёту, я не вижу целесообразности в парсинге, скажем объявлений, устаревших несколько лет назад, но, что вам надо вы решаете. Если парсить только новое, то тут вполне хватит дозволенного. А если всё-всё-всё, тогда просто надо не спеша спарсить сначала все ссылки через сканер, потом сделать из них выборку. Всё равно объявления, опубликованные пару лет назад, никуда не денутся, и вам без разницы, когда вы получите с них данные, сегодня или через день-два.
     
  19. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    В том то и дело что сканер сайтов перестаёт собирать ссылки начиная с 52-й страницы выдачи.

    Да какие там пару лет? :)
    Я задаю диапазон в 2 недели и получаю порядка 8 тыс объявлений. Если бы нужно было обработать несколько сотен то вручную бы сделал. Дело в том что реально нужны именно тысячи. И эти тысячи ссылок исправно собираются сканером сайтов с авито.ру и авто.ру, а вот на бибике почему-то происходит затык.
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Как вариант по повторяющимся границам
    в 10 потоков без паузы,
    с большим списком юзер агентов,
    и только через прокси.

    Проект приложен, только прокси там на свои смените
     

    Вложения:

Поделиться этой страницей