Определение старых не работающих ссылок

Тема в разделе "Фильтры ссылок", создана пользователем uskirill, 14 дек 2016.

  1. uskirill

    uskirill Member Пользователи

    Регистрация:
    14 дек 2016
    Сообщения:
    35
    Ситуация такая , есть интернет магазин поставщика товара, у них постоянно обновляется товар. Добавляются новые ссылки и некоторые старые становятся не рабочими.
    У меня со временем база ссылок растет.

    Так вот как отфильтровать те ссылки в программе, которые уже не рабочие? И удалить их из базы. Есть ли какая нибудь проверка на работоспособность ссылки? И автоматическое их удаление с бекапа.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Программой можно собрать все актуальные ссылки с сайта, но как вы будете потом удалять неактуальные из базы MySQL(?) - хороший вопрос. Ответ я на него не знаю, так как не работаю с базами данных MySQL.

    О каком бекапе идет речь? Что это?
     
  3. uskirill

    uskirill Member Пользователи

    Регистрация:
    14 дек 2016
    Сообщения:
    35
    Немного не поняли меня. Я собрал ссылки в сканере сайтов, сделал бекап ссылок, через неделю восстановил бекап сканера, добавил еще новых ссылок с сайта поставщика. Но некоторые ссылки которые я собирал раннее, уже не рабочие - их удалили. Как отфильтровать не рабочие ссылки и удалить именно те которые ведут на ошибку 404? Или заново надо собирать ссылки с начала каждый раз?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Перейти во вкладку "Контент" и добавить ссылки для проверки (F8);
    2) В шаблоне вывода (ctrl+2) прописать <CD_DOCURL!> и только!;
    3) Выставить парсинг в 1 файл с расширением txt;

    После парсинга в txt должны попасть только рабочие ссылки.
     
  5. zava75

    zava75 New Member Пользователи

    Регистрация:
    23 янв 2020
    Сообщения:
    30
    Город:
    Ромны
    Скажу от себя спасибо огромное за программу и обновы!!!!!!!! Купил ультиматум не часто пользуюсь правда но кожда нужно работает на ура как пулемет !!
    Вопрос к Вам можно ли парсером проверять ссылки ( их очень много ) что бы определить занятость домена для предварительного хотя бы примитивного не точного отбора ? Спасибо
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  7. zava75

    zava75 New Member Пользователи

    Регистрация:
    23 янв 2020
    Сообщения:
    30
    Город:
    Ромны
    У меня не работает вот такие варинаты при ответе 502
    [IF1][GETRESPONSE(HTTP_QUERY_STATUS_CODE)]<CD_DOCURL!>[/GETRESPONSE]==502[THEN]<CD_DOCURL!>[/IF1]
    [IF1][GETRESPONSE(HTTP_QUERY_STATUS_CODE)]<CD_DOCURL!>[/GETRESPONSE]==[THEN]<CD_DOCURL!>[/IF1]
    можно сделать так что бы при 502 ответе писался домен в список ?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Продублируйте этот код в ctrl+6 (т.е. этот шаблон сработает в случае, когда WEB-документ не удалось загрузить).

    Также рассмотрите макрос [RESPONSECODE] (который выводит код ответа), чтобы не делать лишний запрос с помощью [GETRESPONSE].
     
  9. zava75

    zava75 New Member Пользователи

    Регистрация:
    23 янв 2020
    Сообщения:
    30
    Город:
    Ромны
    Спасибо!
    сделал так
    [IF1][RESPONSECODE]==[THEN]<CD_DOCURL!>[/IF1]
    Продублируйте этот код в ctrl+6 вставил <CD_DOCURL!>
    Всё работает может кому пригодится для грязной чистки)
    Потом выбрать сервис типа namecheap там по 1000 настроить зенку точно проверяет
     
  10. zava75

    zava75 New Member Пользователи

    Регистрация:
    23 янв 2020
    Сообщения:
    30
    Город:
    Ромны
    Добрый день. А можно обрабатывать что бы получать ссылки только с 502 ошибкой
    [CHECKENTRY(502)][RESPONSECODE]<CD_DOCURL!>[/CHECKENTRY] так тоже ловит 403(((

    вот так [IF1][RESPONSECODE]==""<CD_DOCURL!>[/IF1] правильно не знаете
    иначе говоря при [RESPONSECODE] 502 получает ответ
    HTTP/1.1 403 Forbidden
    HTTP/1.1 200 OK
    site502.ru
    HTTP/1.1 403 Forbidden
    установил галку в
    Ссылки недоступны для гостей
     
    Последнее редактирование: 20 ноя 2020
  11. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Пробуйте указать 502 с пробелами
    Код:
    [CHECKENTRY( 502 )][RESPONSECODE]<CD_DOCURL!>[/CHECKENTRY]
     

Поделиться этой страницей