Парсинг составной карты сайты (с вложенными подкартами)

Тема в разделе "Парсинг ссылок из XML-карт сайтов", создана пользователем trans5, 22 мар 2018.

  1. trans5

    trans5 Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    66
    Город:
    екаеринбург
    Здравствуйте,

    есть вот такая карта сайта Ссылки недоступны для гостей видимо что то у нее с синтаксисом т.к. при открытии в браузере выглядит как текстовый документ.
    Вложенные карты сайта динамические т.е. адрес после -ru-RUB- каждый день меняется.

    Хотел воспользоваться парсингом составных xml-карт , все настроил по инструкции, запустив сканер ссылок он находит вложенные xml-карты но ссылки во вложенных не находит. Фильтр ссылок пробовал по разному настраивать и даже полностью пустой оставлял.

    upload_2018-3-22_14-1-4.png

    upload_2018-3-22_14-1-34.png

    Подскажите куда копать
     
  2. garat

    garat New Member Пользователи

    Регистрация:
    23 июл 2017
    Сообщения:
    15
    del
    не актуальный ответ
     
    Последнее редактирование: 22 мар 2018
  3. trans5

    trans5 Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    66
    Город:
    екаеринбург
    Что бы один раз отпарсить я сделал так же, но завтра ссылка изменится и надо будет скопировать новую и руками вставить.

    Что бы парсить периодически в автоматическом режиме такой вариант не подходит
     
    garat нравится это.
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    2018-03-22_13-27-47.png
     
  5. trans5

    trans5 Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    66
    Город:
    екаеринбург
    Все отлично получилось, но вот возник вопрос:
    Как организовать периодический парсинг. Настроив планировщик открывается сканер сайта, а кнопка загрузить карту сайта сама не нажимается))
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2018-03-23_19-22-46.png
     
  7. trans5

    trans5 Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    66
    Город:
    екаеринбург
    И еще вопросик если проектов несколько, в одном ссылки собираются через сканер сайта, а в другом через загрузку xml-карты то в через планировщик такие проекты не запустить последовательно?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей
     
  9. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    50
    А если составные карты сайта имеют формат gzip и их много.
    То есть получается у меня есть список составных карт с форматом gzip
    Можно конечно по очереди их парсить, но их 50 штук. Как-то возможно их спарсить автоматически?
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    [​IMG]
    Оно?
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Где ссылка на такую карту сайта?
     
  12. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    50
    Например, вот Ссылки недоступны для гостей
    Хотя выше указали сайт Ссылки недоступны для гостей
    там все работает без галочки gzip

    Но смысл в том, что даже в примере Ссылки недоступны для гостей
    Допустим есть очень много составных карт. Отдельно для форума, блогов, юзеров, статей и т.д.
    структура урлов у них одинаковая (у статей), поэтом не вариант их через сканер искать.

    Хочется получить список составных карт, выбрать в этом списке только нужные.
    Загрузить выбранные составные карты и чтобы они все автоматически спарсились. Сейчас же насколько я понимаю, можно только по одной или все сразу. Или я просто не умею это делать, поэтому спрашиваю
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Никто выше этот сайт не указывал.
     
    Последнее редактирование: 19 май 2018
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Скажите, где в карте Ссылки недоступны для гостей есть внутри составные карты? Пожалуйста, дайте ссылку хотя бы на одну составную карту, которая внутри Ссылки недоступны для гостей
     
    Последнее редактирование: 19 май 2018
  15. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    50
    Дико извиняюсь за свои объяснения. Попробую еще раз.
    Вот карта сайта Ссылки недоступны для гостей
    При ее открытии мы получаем другие карты сайтов. Я предположил, что это есть составные карты сайты. Если я ошибся, то извиняюсь.

    Итак, загрузив данную карта сайта я получаю вот такие вот ссылки на другие карты сайтов.
    sm.jpg

    мне нужно взять только статьи, то есть карты сайтов вот такие
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    и так далее, чтобы не брать лишнее.

    Вопрос: Можно ли куда-то вставить эти карты cайтов статей и получить ссылки со всего списка?

    В настоящее время я мог бы вставить Ссылки недоступны для гостей поставить HasChildreMap, но тогда ссылки возьмутся со всех дочерних карт, а мне это не нужно. к тому же эта функция не срабатывает на этом сайте, возможно потому что дочерние имеют формат .gz
    либо я могу брать каждую дочернюю карту по одной и получать ссылки. Вот меня и интересует можно ли как-то списком получить все ссылки.
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2018-05-20_03-09-38.png
     

    Вложения:

    • XMLc.cdp
      Размер файла:
      36,5 КБ
      Просмотров:
      5
    xLime и Vesb нравится это.
  17. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    50
    круто! вот это оперативность! спасибо!
     
  18. Gary

    Gary New Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    3
    А можно как-то отключить проверку на дубли при парсинге ссылок с вложенных карт?
    777.jpg
    Начинается парсинг бодренько, но через 5 минут скорость падает в сотни раз, я так понимаю это проверка на дубли воду мутит...
    Я пробовал вставлять руками 100 вложенных карт - это заняло у меня минут 15,
    а на автомате эти же 100 карт уже парсит не один час, и я сомневаюсь что дойдет до конца
     
    Последнее редактирование: 4 ноя 2018
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Предоставьте ссылку на эту карту сайта для тестирования.
     
  20. Gary

    Gary New Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    3
    @Root
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 9500 постов.**
     

Поделиться этой страницей