Как спарсить сайт если в тексте ссылки.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Zeus, 19 сен 2013.

  1. Zeus

    Zeus New Member Пользователи

    Регистрация:
    19 сен 2013
    Сообщения:
    7
    Здравствуйте!
    Поломал себе весь мозг, есть противный сайт.
    HTML:
    http://wwm.ua/production/ink-WWM-Canon-CL-511S-CL-513S-CLI-521C-C11-C/20617/
    Не могу спарсить раздел "Для устройств:" где присуствуют ссылки под текстом, почитал форум по методу который предложил kagorec
    не получается. Помогите пожалуйста а то я уже не знаю что и придумать :(
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.698
    Город:
    Riga
    Читая ваш пост поломать мозг тоже можно)
    Выделили границей часть кода нужного например описание? Как понял проблема в том что нечего макросам обрабатывать потомучто им не выводится ничего...
     
  3. Zeus

    Zeus New Member Пользователи

    Регистрация:
    19 сен 2013
    Сообщения:
    7
    Вот к примеру границы парсинга
    Код:
    <div class='content '> (начало)
    					<b>Canon</b> Pixma <a href='/production-search/canon-pixma-pro9500/?device_id=11743'>Pro9500</a><span class='small_sp'> </span>/<span class='small_sp'> </span><a href='/production-search/canon-pixma-pro9500-mark-ll/?device_id=11744'>Pro9500 Mark ll</a>
    				</div> (конец)
    
    Необходимо что бы спарсило "Canon Pixma Pro9500 / Pro9500 Mark ll" но без ссылок. Я уже и не знаю что придумать, начинаю залипать над этой проблемой :)
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Как вариант: поиск-заменой в "дополнительные настройки границ парсинга" (на панели инструментов) прописать:
    <a {skip}>|
    </a>|
     
  5. Zeus

    Zeus New Member Пользователи

    Регистрация:
    19 сен 2013
    Сообщения:
    7
    Спасибо, это помогло.

    Появилась новая проблема, не могу спарсить ссылки, со списком страниц с ссылками на товар проблем нет

    Код:
    www.site.ua/catalog/#/catalog/?page=1
    www.site.ua/catalog/#/catalog/?page=2
    www.site.ua/catalog/#/catalog/?page=3
    ....
    при предосмотре любого элемента выдает только ссылки с первой страницы catalog/?page=1 а если кликнуть центральным колесом мыши (просмотр в окне барузера) тогда попадает на правильную страницу а не на первую. Не могу понять в чем проблема.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Здравствуйте, для GET-Запроса символ решетка, и все, что после него не важно!!! Это важно только для браузера!!!
    Вам нужны ссылки типа Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , преобразуйте ваши в такие, используя функцию поиск-замены в фильтрах ссылок.
     

Поделиться этой страницей