Парсинг составных XML карт сайтов.

Тема в разделе "Парсинг ссылок из XML-карт сайтов", создана пользователем MaiklWizard, 2 июл 2020.

  1. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Не могу понять как вставить две ссылки - чтобы спарсить все товары, если тут:

    upload_2020-7-2_17-31-34.png

    а у меня две последовательные ссылки((

    Ссылки недоступны для гостей Ссылки недоступны для гостей
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прочтите заголовки постов раздела системы помощи
    Парсинг и добавление ссылок
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  4. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Не получилось. что странно. вроде ничего сложного((
     

    Вложения:

  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2020-07-03_03-32-55.png

    Код:
    https://arnage.com.ua/sitemap.xml
     
    kagorec нравится это.
  6. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    блин, а я по штучно вставляю. Спасибо. Можно еще вопрос?

    На уровне сайт мапа - можно избежать вставки ссылок повторов, на другом языке где в ссылке присуствует один повтор:

    upload_2020-7-3_9-53-6.png

    так чтобы без сканера ссылок?

    или без добавления в csv - документ:

    upload_2020-7-3_10-25-42.png
     
    Последнее редактирование: 3 июл 2020
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В фильтрах ссылок есть функция поиск-замены, с помощью которой можно вырезать лишнюю часть ссылок.
    Код:
    /ua/|/
    В инструменте загрузки XML карт сайта можно включить опцию использования фильтров ссылок.
     
  8. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Пробовал - но тогда появляются одинаковые дубли товара( ведь ссылка без UA - тоже существует.
    Нашел при разборе страницы, такой - тег:

    <a itemprop="item" href="Ссылки недоступны для гостей"><span
    <a itemprop="item" href="Ссылки недоступны для гостей"><span

    Вывел в отдельный столбец. Не знаю пока как указать - чтобы в CSV - не бралось то что с /ua/ - поэтому отсортирую уже в готовом сым-листе.


    Проблема решена (невнимательность)
    Нашел тег:
    <span class="lang-menu__item is-active"><a class="lang-menu__link"> - настроил по нему.
    Спасибо.
     
    Последнее редактирование: 3 июл 2020
  9. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    upload_2020-7-3_14-21-6.png

    А можно както в сканере карты сайта - указать - глубину ссылок не дальше второй, или это только через фильтр ссылок делается?
     

Поделиться этой страницей