Как получить ссылки только на товары (ссылки товаров и категорий похожи)

Тема в разделе "Общее", создана пользователем Cheshir, 26 июн 2017.

Статус темы:
Закрыта.
  1. Cheshir

    Cheshir New Member Пользователи

    Регистрация:
    23 июн 2017
    Сообщения:
    15
    Город:
    Москва
    Здравствуйте!
    Каким образом получить ссылки только на товары при наличии списка ссылок из sitemap.xml, который также содержит ссылки на категории. Проблема в том, что нет определенного критерия идентификации ссылки на товар, к примеру:
    ссылка на категорию выглядит так: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    ссылка на товар выглядит так: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Последнее редактирование: 26 июн 2017
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Здравствуйте.

    Парсить все ссылки и фильтровать документы при парсинге с помощью опции "обязательна" у нужной границы парсинга (ctrl+4).
     
    Cheshir нравится это.
  3. Cheshir

    Cheshir New Member Пользователи

    Регистрация:
    23 июн 2017
    Сообщения:
    15
    Город:
    Москва
    Не хватает этой опции при сборе (а не парсинге) ссылок...
     
  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Вы сами понимаете, что если ссылки товаров и категорий никак не отличаются, то без загрузки и анализа кода этих WEB-документов фильтрацию произвести невозможно. Действуйте предложенным способом, он в полной мере решает ваш вопрос. О чем и почему тогда лишние разговоры, простите, мне не понятно.
     
  5. Cheshir

    Cheshir New Member Пользователи

    Регистрация:
    23 июн 2017
    Сообщения:
    15
    Город:
    Москва
    Сканер сайта анализирует html на присутствие тега <a? К примеру, добавить возможность фильтрации при сканировании по дополнительному критерию (кастомному) - слово, кусок html и т.д., а не только фильтр по составляющим самой ссылки.
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    Чтобы вы знали: сканер сайта не загружает код ссылок выдачи (он просто находит ссылки на WEB-странице из списка очереди (верхний) и добавляет их в список выдачи (нижний) без загрузки).

    Раз вы настаиваете на своем, поясните мне вот что:
    1) Какой код тогда подвергать анализу по вашему (если код ссылок выдачи не подвергается загрузке)?
    2) Почему вам не подошел предложенный мной способ? По каким причинам?
     
  7. Cheshir

    Cheshir New Member Пользователи

    Регистрация:
    23 июн 2017
    Сообщения:
    15
    Город:
    Москва
    Наличие/отсутствие определенного тега/слова (как вариант)
    Для текущей задачи способ подошел.
     
  8. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.624
    Город:
    Сочи
    На вопрос:
    Вы отвечаете:
    Не вижу смысла дальше об этом говорить. Себе дороже, когда человек вас не видит и не слышит.
     
    Последнее редактирование: 26 июн 2017
Статус темы:
Закрыта.

Поделиться этой страницей