как спарсить сайт без ссылок в явном виде

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем perplexor, 28 авг 2014.

  1. perplexor

    perplexor New Member Пользователи

    Регистрация:
    16 авг 2012
    Сообщения:
    21
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    вот такой сайт
    Все ссылки относительные - и на категории, и на товары
    Да ещё и если много страниц с товаром, то не на все ссылки есть
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    - страницы 1-2-3-4-5, затем 13

    как быть?
     
    Последнее редактирование модератором: 28 авг 2014
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ЗДРАВСТВУЙТЕ!
    Либо собираете сканером по шаблону
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    с глубиной ссылок от 4 до 4
    Либо парсите сначала ссылки, потом получаете с них количества страниц, генерируете и т.д.
     
    Последнее редактирование: 28 авг 2014
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    ... или в фильтре ссылок добавить можно следующее условие:
     
  4. perplexor

    perplexor New Member Пользователи

    Регистрация:
    16 авг 2012
    Сообщения:
    21
    Я понял, почему у меня не получается. Сайт выдает мне страницу, что у меня устаревший браузер, и с неё некуда переходить. Но подмена юзер-агента ничего не даёт.
     
  5. perplexor

    perplexor New Member Пользователи

    Регистрация:
    16 авг 2012
    Сообщения:
    21
    в общем, нажал на кнопу "использовать ИЕ", заработало.
    Всем большое спасибо!
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Обновите ваш IE скорее всего проблема в этом. Программа использует последнюю версию.
     
  7. DAO

    DAO New Member Пользователи

    Регистрация:
    8 сен 2014
    Сообщения:
    2
    а как в данном случае из тысяч отфильтрованных ссылок взять только страницы с определенным брендом, например только ручки Beifa, указания-то на бренд в url-е нет?

    есть ли фильтр по коду html при парсинге, в котором, понятное дело, имя бренда есть?..
    не парсить же все тысячи товаров, а потом ненужные удалять из csv...

    делаю так:
    • отфильтровал все ссылки по /Go/ViewProduct/id=
    • с глубиной от 4 до 4
    • нашел методом тыка в браузере две крайние ссылки, т.е. с которой каталог начинается и которой каталог заканчивается
    • сгенерировал список страниц с гипотетически всеми товарами на сайте
    • получил 17 000 ссылок
    • часть из них мертвые - не ведут ни к какому товару
    • сейчас пройдусь по ним сканером не пополняя очереди, но, боюсь, что сканер не все ссылки соберет, уже такое было. м.б. слишком быстро запросы на сайт отправлял? попробую поставить 1000 мс и 10 потоков.
    • странно, что при сканировании ссылок списком на выходе найденные ссылки идут не по порядку и при проверке некоторые из найденных ссылок в браузере не открываются... в чем проблема?
    как теперь из этого списка выудить только страницы с нужным мне брендом?
     
    Последнее редактирование: 9 сен 2014
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Во вкладке "контент" есть функции фильтрации документов по списку ключевиков -> shift+ctrl+f (добавить туда бренд).

    С уважением к вам, Сергей.
     
  9. DAO

    DAO New Member Пользователи

    Регистрация:
    8 сен 2014
    Сообщения:
    2
    Здравствуйте!
    Круто, спасибо!!!
    А в интерфейсе где эта заветная кнопка?)) Что-то не смог найти. Безусловно, по сочетанию клавишь работает, но все-таки...

    Сам нашел, не увидел в правом дереве...
     
    Последнее редактирование: 9 сен 2014
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Смотрите рисунок, но проще комбинациями
     

    Вложения:

  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    DAO, пожалуйста.

    Антон, ты бы хоть прочел, какую функцию показать надо! =)
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    простите, отвлекся)
     

    Вложения:

Поделиться этой страницей