помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сканер сайтов, это Ссылки недоступны для гостей. То, что останавливается на 52-й странице, это "сбор ссылок по диапазону".

    Я давно гвоорил, пора жалобы на них писать, на тех, кто ставит защиты на свой контент... :D

    Просто прокси не помогает, а вот юзеров-агентов я не добавлял
     
  2. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    ваша программа умеет делать такое?

    нужно собрать адрес телефон и емейл с например такой страницы Ссылки недоступны для гостей , но настроить прогу не получается, она собирает только первое предприятие и все. Ставишь несколько предприятий и тоже самое. Пробовал вставлять теги в повторяющиеся границы , но строк не хватает

    если прога такого не умеет, подскажите инструмент

    Я подозреваю что неправильно прописан шаблон вывода, или границы
     
  3. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ошибка по указанному адресу
    Код:
    Warning: mysql_connect():
    Невозможно посмотреть
     
  4. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    сейчас вроде работает:D
     
  5. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    Ссылки недоступны для гостей да вот хотя бы как здесь это сделать
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Да, вы просто не настроили, пример, как настроить в приложении

    Да, заработало.

    Прачечная настривается также, как и этот
     

    Вложения:

  7. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    странно он собирает только первую строчку и без названия
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ничего странного, названия и прочую лабуду я не настраивал, настроил только то, что было в вашем запросе
    Остальное настраивается по аналогии.
    Смотреть результат надо во вкладке CSV
    Заодно, неплохо было бы Ссылки недоступны для гостей. Начните с просмотра Ссылки недоступны для гостей.
     
  9. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    там 10 предприятий что все вносить? так там строк для тегов не хватит
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Посмотрите Ссылки недоступны для гостей, там всё объясняется. Вижу вы не смотрели совсем.
    Сначала надо собрать нужные ссылки, потом уже с каждой ссылки делать выборку. Ну и так далее
     
  11. flynet

    flynet New Member Пользователи

    Регистрация:
    21 мар 2012
    Сообщения:
    6
    нет уроки посмотрел, просто программа берет со страницы только 1 предприятие, а остальные с этой же страницы ни как не хочет
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вначале надо собрать ссылки, как это делается показано тут:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Затем нужно задать границы парсинга
    Ссылки недоступны для гостей

    Потом шаблон парсинга
    Ссылки недоступны для гостей

    После этого будет сам процесс парсинга
     
    Последнее редактирование: 22 мар 2012
  13. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Наверное в уроках вы не поняли главную вещь,- с каких страниц целесообразнее парсить. В вашем случае, парсинг должен происходить со страницы самого объявления
    Код:
    http://www.ua-region.info/24594429
    Вы же показали страницу категории и с неё пытаетесь парсить. Проект не настроен на эту страницу
    Код:
    http://www.ua-region.info/kved/Ind.27
    Со страницы категории, можно парсить, тогда надо использовать "Ссылки недоступны для гостей" парсинга.

    Но такой вариант может не сработать, если на странице категории не выставлены все данные. В 90% случаев, сайтов, подобных этому, эти данные не выставляются в полной мере, и вы можете не получить всё, что вам нужно. Небольшой анализ сайта показывает, что в вашем случае вы не получите всю полноту данных только со страниц категории. Лучше получать данные со страниц объявления. Проект надо ещё доработать, я показал только основные моменты, там встречаются ещё поля,- телефон бухгалтера и прочее, чего я не включил в проект.

    Посмотрите уроки, которые я показал в предыдущем сообщении, в той же последовательности, в какой я показал, и всё станет ясно
     
    Последнее редактирование: 22 мар 2012
  14. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    День добрый. Имеем сайт Ссылки недоступны для гостей.
    Научился парсить и объявления и телефон и рубрики.Затык произошёл в больших картинках. Вот на этой странице есть объявления с картинками. превьюшки лежат в теге img. Но они нафиг не нужны. А вот большие идут в ссылке вида
    Где значение у "gal[1]" разное на каждых страницах. Может быть
    Если поставить {skip} заместо gal[{skip}], то получаем вот такой ужас в выводе csv
    Как от этого избавиться и получить правильный путь на картинку?
     
  15. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    С каких страниц картинки получить надо?

    Если надо настроить картинки с главной страницы
    вот с этой -
    Код:
    http://www.yarmarka-ryazan.ru/
    То настройки такие начало
    <td width=80 valign=top><a rel="gal[{skip}]" href="..
    вторая границы
    "
    Далее, шаблон в зависимости от того, что надо получить. Если картинки в html, то вот такая конструкция
    <img src="<CD_GRAN_1!>">
    Если в CSV то <CD_GRAN_1!>;
    и получим - images/img1305183664_0_.jpg
     
    Последнее редактирование: 22 мар 2012
  16. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Подскажите как спарсить товар на ebay со страниц типа Ссылки недоступны для гостей ?
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Страница, которую вы показываете является страницей списка товаров, или, страница категории. С неё можно спарсить ссылки, название, цену и картинку. Если этого достаточно, то можно воспользоваться настройкой границ парсинга через "повторяющиеся границы парсинга". Подробные уроки о том, как это сделать вы найдёте на этой вот странице,- Ссылки недоступны для гостей. Конкретно повторяющиеся границы парсинга чуть ниже середины страницы - "Повторяющиеся границы парсинга:".
     
  18. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    Добрый день. Помогите пожалуйста в настройке парсера. Хотел спарсить Ссылки недоступны для гостей - форум с кул. рецептами. Думаю скачать все топики с комментами. Но не все топики, а из определенных разделов. Как это сделать? И на всякий случай: как спарсить топики без комментов с данного сайта? Сайт полезный))
     
  19. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сначала надо получить ссылки, способов несколько
    1. Открыть ссылку раздела
    Код:
    _http://forum.say7.info/forum66.html
    2. Собрать все ссылки категории, используя Ссылки недоступны для гостей. Это отсюда - На страницу 1,2,3,4,5,6,7 ...156,157,158 След.
    3. Получите в результате этого действия все ссылки на страницы со списком тем
    4. Далее, надо получить все ссылки уже на конкретные темы

    Второй способ получить ссылки, это,- Ссылки недоступны для гостей, читайте и смотрите подробности.

    Далее,- надо настроить получение самих сообщений.

    - Чтобы настроить, надо использовать инструмент Ссылки недоступны для гостей - по ссылке пройдёте, найдёте соответствующий видеоурок (чуть ниже середины страницы), там всё показано
     
    Последнее редактирование: 24 мар 2012
  20. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    Спасибо. Только я это уже всё посмотрел. Может я не до конца понял, только мне придётся вручную каждую из 158 страниц собирать, а потом темы, где несколько страниц комментариев? Парсер сайта просматривает весь форум. Много чего ненужного. Вот я и хотел автоматизировать цепочку Категория-Тема-Комментарии.
    Извиняюсь, если недопонял. Видео посмотрел.
     

Поделиться этой страницей