Автоматически применить фильтры к списку ссылок в планировщике

Тема в разделе "Фильтры ссылок", создана пользователем mokledabondos, 9 дек 2014.

  1. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Добрый день, мой вопрос думаю понятен из названия темы, но я попробую кратко описать свою ситуацию.
    Включаю "планировщик". Первый проект парсит заданный мною список из 10 Rss лент (разных сайтов) и полученный список ссылок успешно сохраняет в TXT файлик...(допустим что напарсило сотню Url)
    Далее поочерёдно идёт ещё 10 проектов(это 10 разных сайтов) и из 100 ссылок(спарсеных с RSS) нужно чтобы каждый проект брал свои...(а не все подряд)

    В ручном режиме нет проблем выбираю любой один проект, закидываю эти 100 ссылок, в "настройках фильтров(фильтры ссылок)" задаю к примеру шаблон для ссылок "site.ru" правая кнопка мыши\Применить фильтры к списку ссылок. Всё по имени домена я получаю нужные ссылки и начинаю парсить статьи.

    А как бы так сделать чтобы оно на автомате фильтровало? :confused:(соответственно для каждого проекта будет свой шаблон для фильтра ссылок)
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Парсить ссылки с RSS лент во вкладке "ссылки" с настроенными фильтрами ссылок. Проблем быть не должно.

    С уважением к вам, Сергей.
     
  3. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Стоп, подождите, наверное я не так как-то изъяснил суть проблемы, давайте попробую по другому :).
    С парсингом списка RSS проблем вообще никаких нет. И давайте попробуем напрочь забыть про существование RSS, есть только файл TXT и в нём 100 ссылок на статьи. Если брать в общей сложности то в этих 100 ссылках ровно 10 уникальных доменов(10 никак не связанных между собой сайтов)

    1 сайт = 1 проект, и один проект не может обработать все 100 ссылок так как он заточен на один только уникальный сайт, а остальные 9 проектов запускаются потом и тоже через себя прогоняют эти 100 ссылок да вот толку то...от 1000 статей в одной куче из которой 900 вхолостую прогнанный мусор.

    Для того чтобы успешно всё спарсилось мне нужно каждый проект запускать в ручном режиме, примерно это выглядит так:

    - запускаю 1-й проект(site1.ru) с того файлика TXT(100 ссылок) программа парсит все ссылки на статьи где присутствует домен site1.ru Допустим всего из 100 ссылок получилось 6 ссылок(6 статей - готово - сохранило)
    А как быть с остальными 94 ссылками и 9-тю уникальными доменами?

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Правильно! Беру проект №2 который заточен под сайт site2.ru и ссылки в которых присутствует данный домен паршу тоже...с того же TXT файла с сотней ссылок, и так далее...

    Так понятнее изложил? А то я скоро сам запутаюсь.:whew:
     
    Последнее редактирование: 10 дек 2014
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    странно вы решили зачемто отдельно собирать.
    1. в каждом отдельном проекте начинать со вкладки "ссылки" где отмечен пункт "после сбора приступать к парсингу"
    2. запускать каждый проект с планировщика задач, поищите по форуму "планировщик задач" описывали недавно.
     
  5. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Или я не понял фразы или они же у меня уже собраны в один файлик TXT помните? :)

    Конечно могу ошибаться, но оно взяв ссылки с файла начинает искать ещё какие-то левые ссылки...а мне ничего собирать/сканировать не нужно, уже всё готово, нужно просто спарсить статьи ПО уже готовым проектам.
    Мне сам планировщик не нужен пока как запуск программы в заданный период времени, а нужен как запуск всех проектов скопом... и принципе всё удачно КРОМЕ: автоматически не хочет "применить фильтры к списку ссылок" А руками пожалуйста:

    - Берём файл TXT с 639 ссылок

    1.[​IMG]

    2.[​IMG]

    3.[​IMG]

    После применения фильтра по нужному домену осталось 80 ссылок, которые после перехода во вкладку "Контент" и нажатия кнопки "начать парсинг" успешно превращаются в статьи...А с остальными что? А с остальными открываю другой проект ориентированный на другой сайт и делаю тоже самое с тем же файлом TXT и 639 ссылками...
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если вы парсите ссылки во вкладке ссылки, то фильтры автоматически применяются! В чем проблема у вас, простите, ума не приложу. Надеюсь, господин Kagorec поймет...
     
  7. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    У меня такое ощущение что я вам о корове, а вы мне о мельницах. :)

    Ещё раз подчёркиваю парсить ССЫЛКИ мне категорически не нужно, а нужно получить статьи по списку ссылок которые я скармливаю программе и ничего лишнего! Проблема только в том что эти ссылки на разные ресурсы...

    Возьмём условно. Каким образом проект настроенный на парсинг статей ТОЛЬКО с Twitter-а из общего списка ссылок в котором будут не только ссылки на твиттер (как не сложно было бы это понять :)) будет парсить статьи с ЖЖ или Tumblr? И наоборот...
    По примеру на скрине отобразил 4 разных заданных границ парсинга от 4-х разных уникальных проекта

    [​IMG]

    Которые предназначены для абсолютно разных сайтов.

    Мне нужно было просто элементарно чтобы каждый проект из общего TXT файла брал исключительно те ссылки(по маске, по шаблону, всё равно как) с которыми умеет работать (настроены теги на парсинг статей определённого сайта)

    А поскольку это пока для меня не возможно в силу того что сам недавно купил прогу и просто не знаю нюансов работы или ещё чего...то нашёл способ не то чтобы удобный, но это лучше чем руками перепечатывать статьи.

    1) Паршу свой списочек RSS лент результат которых потом CD успешно и аккуратно сохраняет в файлик .CSV c нужными мне данными:

    [​IMG]

    - В Excel фильтрую полученные данные по последней дате и выбираю нужные мне ссылки на статьи по "Заголовку"(Title)
    - Потом ручками по имени домена разбрасываю ссылки по файлам к примеру:

    Tumblr.txt
    Twitter.txt
    ЖЖ.txt
    Facebook.txt

    - Далее уже в каждом проекте во вкладке "Автоматизация / Загрузка ссылок перед парсингом" указываю путь к файлу (для каждого проекта свой)

    twitter_com - Twitter.txt
    tumblr_com - Tumblr.txt
    ...до бесконечности...

    2) И уже только теперь через планировщик запускаю все проекты вместе без боязни что что-то пойдёт не так...CD всё это добро чётенько сохраняет мне куда нужно и как нужно в одну папочку, после чего незамедлительно импортируется в КМС.

    Всё, больше ничего не нужно. Пока проектов мало то можно с этими TXT фалами и повозится, а когда перевалит к примеру за 50, то что тогда? В общем не знаю с одного файла согласитесь статьи парсились бы быстрей...Очень надеюсь что хотя бы в этом посте наглядно продемонстрировал для понимания свои труднорешаемые задачи. Простите если где-то мои фразы звучали остро.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Поясните, какой именно функцией программа берет ссылки из txt файла?
     
  9. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Сейчас берёт таким образом, через "Автоматизация / Загрузка ссылок перед парсингом"

    [​IMG]

    И дальше начинает обрабатывать(парсить статью) все ссылки подряд, а хотелось бы задавать маску определённого домена чтобы брало только нужные ссылки...
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Теперь все ясно! Сразу бы так...

    Постараюсь сделать запрашиваемую опцию в ближайшие дни (но ничего не обещаю).

    С уважением к вам, Сергей...
     
  11. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    О, это было бы здорово! :handshake::yes:
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Дай Бог!
     
  13. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Огромное спасибище! :) За внимание к моей скромной персоне и реализацию моей маленькой прихоти, которая надеюсь будет полезна и всем остальным пользователям программы Content Downloader :nerd:

    Но попрошу не падать стоя, в общем...функция "Применить фильтры ссылок" по каким-то причинам не хочет срабатывать...

    Ни через планировщик, ни просто если в одном проекте во вкладке "контент"(иди даже во вкладке "Ссылки") нажать кнопку "Начать парсинг" То есть запускается парсинг статей абсолютно по всем ссылкам в файле...Посмотрел может неправильно задал маску, но нет, всё нормально.

    В ручном режиме:

    - до применения фильтра ссылок

    [​IMG]

    - после применения фильтра ссылок

    [​IMG]

    Как видно по скриншотам из "636" ссылок осталось только "9"...
    По этим 9 ссылкам на статьи и должны были бы по идее парсится статьи.

    Есть какие-нибудь идеи или мысли по этому поводу? (P.s. галочку не забыл отметить и сохранить проект)
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы предпросмотр делаете или парсинг запускаете (f5)? Функция загрузки списка ссылок выполняется только при запуске парсинга (не при предпросмотре). Следовательно и фильтры применяются только при запуске парсинга. Тестировал неоднократно, работает!
    Приложите файл проекта и опишите последовательность ваших действий. Гадать, поверьте, не очень хочется.
     
  15. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Ну естественно парсинг(через кнопку "начать парсинг" и через планировщик "запускать парсинг во вкладке"), с чего бы я писал что начинает парсить статьи по всем ссылкам подряд и естественно сохраняет всё это дело в файлики.

    Вот, архив там 2 файла:

    - проект
    - Ссылки на статьи.txt

    В проекте уже всё настроено, только нужно сменить путь к TXT файлу со ссылками и просто запустить.

    Последовательность?

    1) загружаю проект
    2) нажимаю зелёную кнопку "начать парсинг" или через планировщик (без разницы, результат один)
    3) судорожно пытаюсь остановить процесс парсинга так как парсит все 636 ссылок подряд и соответственно походу готовые статьи сохраняет.
    4) Всё.
     
    Последнее редактирование: 12 дек 2014
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо!

    Пожалуйста, пробуйте сейчас:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    С уважением к вам, Сергей...
     
  17. mokledabondos

    mokledabondos New Member Пользователи

    Регистрация:
    1 дек 2014
    Сообщения:
    9
    Всё, попробовал через планировщик и просто через "начать парсинг" Полный ништяк!:beer::yes: Спасибо большое, теперь можно работать. ;)
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста. Обращайтесь...
    PS: Извините за неудобства.
     

Поделиться этой страницей