Не сохранять результат при условии...

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Centurion, 27 май 2017.

  1. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    Не нашел в программе, может плохо искал.

    Создал шаблон по границам парсинга.
    1000 ссылок на парсинг.

    Если на странице, в границах парсинга обнаруживается слово СОЛНЫШКО, то не нужно сохранять результат. Если этого слова нет, то сохранять результат.

    Возможно такое сделать в настройках или нет?

    Или проще до парсинга как-то ссылки ведущие на страницу со словом СОЛНЫШКО удалить из очереди.
     
  2. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Волшебным макросом checkentry можно. Ссылки недоступны для гостей
    [CHECKENTRY(СОЛНЫШКО[IFNOT])]<CD_GRAN_1!>[THENTEXT]не нужно сохранять результат[ELSETEXT]нужно сохранять результат[/CHECKENTRY]
     
    AlexandrSorokin, Root и Centurion нравится это.
  3. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    Так он границу не сохранит или вообще не станет эту страницу по данной ссылке сохранять в результат.
    Я по каждой ссылке в отдельный файл сохраняю. Мне нужно чтобы страница такая не сохранялась в папку вообще.
     
  4. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Этот макрос отличный вариант условия.
    Если ваше условие выполняется [THENTEXT] пишите то, что вам необходимо вывести или сохранить.
    Если не выполняется [ELSETEXT] можете вообще ничего сюда не писать
     
    Root нравится это.
  5. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    В новой версии программы в шаблоне конструкция
    {слово один|слово два|слово три|слово четыре}
    не работает?
     
  6. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    Мануал по CHECKENTRY вообще непонятно написан.

    У меня в границе пасинга 2. Могут быть слова из двух вариантов:
    1. Комментариев нет.
    2. Это комментарии.

    В шаблоне вывода:
    <p><CD_GRAN_2!></p>

    Мне нужно сохранять страницы с текстом - Это комментарии.
    А страницы с - Комментариев нет. Сохранять не нужно.
     
  7. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    [CHECKENTRY(Это комментарии)]<CD_GRAN_2!>[THENTEXT]Ваш набор макросов для вывода[/CHECKENTRY]
     
    Shotlandec1980 и Centurion нравится это.
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2017-05-27_18-44-35.png
     
    Centurion нравится это.
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это из разряда: смотришь в книгу - видишь "фигу".

    Пользуйтесь функцией shift+ctrl+f для фильтрации документов по ключевым словам.
     
  10. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Вот только хотел также предложить вариант фильтрации, но Сергей опередил)))
    в качестве ключевых слов поставьте Комментариев нет
    и точку "Документ будет отфильтрован"
     
    Root нравится это.
  11. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    Щас первую партию на Content Downloader II запущу. И сделаю без ваших умных макросов. Потом в файлах замену текста =Комментариев нет= в Notepad++ на текст в 10 кб сделаю во всех найденных файлах. И потом в папке таблицей все файлы по размеру сгруппирую. И удалю те, что больше весят. Так и отсортирую.

    Пока парсит Content Downloader II, буду в Content Downloader X1 в настройках разбираться.
    Всем спасибо за ответы.
     
  12. Centurion

    Centurion Member Пользователи

    Регистрация:
    28 авг 2010
    Сообщения:
    36
    aresa, при такой конструкции как вы написали, файлы со страниц =Комментариев нет= сохраняет в папку. Только абзац пустой <p></p>
    А если на странице есть =Это комментарии= то тоже сохраняет, но уже в <p>есть текст.</p>
     
  13. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    сможете проект приложить?
     
  14. Stan

    Stan Active Member Пользователи

    Регистрация:
    15 июн 2011
    Сообщения:
    501
    Если в коде содержится такое
    <div class="block_category">

    То не сохранять документ. Как это сделать?
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Отвечали выше.
     
  16. Stan

    Stan Active Member Пользователи

    Регистрация:
    15 июн 2011
    Сообщения:
    501
    да, но как то не дошло, тестировал в проекте, не понял ничего

    пробовал так

    [CHECKENTRY(<div class="block_category">[IFNOT])]55555333[THENTEXT]7777777[/CHECKENTRY]

    всегда выводит 7777777
     
  17. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Правильновыводит. Ваш же текст <div.... не совпадает с 55555333. Вместо 55555333 нужно ставить то в чем вы ищете вхождение div... т. Е. Ваш кусок текста. К тому же при необходимости можно использовать [ELSETEXT]
    Ссылки недоступны для гостей
     
    Stan и Root нравится это.

Поделиться этой страницей