Парсинг составной карты сайты (с вложенными подкартами)

Тема в разделе "Парсинг ссылок из XML-карт сайтов", создана пользователем trans5, 22 мар 2018.

  1. trans5

    trans5 New Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    28
    Город:
    екаеринбург
    Здравствуйте,

    есть вот такая карта сайта Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! видимо что то у нее с синтаксисом т.к. при открытии в браузере выглядит как текстовый документ.
    Вложенные карты сайта динамические т.е. адрес после -ru-RUB- каждый день меняется.

    Хотел воспользоваться парсингом составных xml-карт , все настроил по инструкции, запустив сканер ссылок он находит вложенные xml-карты но ссылки во вложенных не находит. Фильтр ссылок пробовал по разному настраивать и даже полностью пустой оставлял.

    upload_2018-3-22_14-1-4.png

    upload_2018-3-22_14-1-34.png

    Подскажите куда копать
     
  2. garat

    garat New Member Пользователи

    Регистрация:
    23 июл 2017
    Сообщения:
    15
    del
    не актуальный ответ
     
    Последнее редактирование: 22 мар 2018
  3. trans5

    trans5 New Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    28
    Город:
    екаеринбург
    Что бы один раз отпарсить я сделал так же, но завтра ссылка изменится и надо будет скопировать новую и руками вставить.

    Что бы парсить периодически в автоматическом режиме такой вариант не подходит
     
    garat нравится это.
  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    2018-03-22_13-27-47.png
     
  5. trans5

    trans5 New Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    28
    Город:
    екаеринбург
    Все отлично получилось, но вот возник вопрос:
    Как организовать периодический парсинг. Настроив планировщик открывается сканер сайта, а кнопка загрузить карту сайта сама не нажимается))
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Здравствуйте.

    2018-03-23_19-22-46.png
     
  7. trans5

    trans5 New Member Пользователи

    Регистрация:
    26 сен 2017
    Сообщения:
    28
    Город:
    екаеринбург
    И еще вопросик если проектов несколько, в одном ссылки собираются через сканер сайта, а в другом через загрузку xml-карты то в через планировщик такие проекты не запустить последовательно?
     
  8. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
  9. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    44
    А если составные карты сайта имеют формат gzip и их много.
    То есть получается у меня есть список составных карт с форматом gzip
    Можно конечно по очереди их парсить, но их 50 штук. Как-то возможно их спарсить автоматически?
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    326
    [​IMG]
    Оно?
     
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Где ссылка на такую карту сайта?
     
  12. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    44
    Например, вот Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Хотя выше указали сайт Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    там все работает без галочки gzip

    Но смысл в том, что даже в примере Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Допустим есть очень много составных карт. Отдельно для форума, блогов, юзеров, статей и т.д.
    структура урлов у них одинаковая (у статей), поэтом не вариант их через сканер искать.

    Хочется получить список составных карт, выбрать в этом списке только нужные.
    Загрузить выбранные составные карты и чтобы они все автоматически спарсились. Сейчас же насколько я понимаю, можно только по одной или все сразу. Или я просто не умею это делать, поэтому спрашиваю
     
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Последнее редактирование: 19 май 2018
  14. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Скажите, где в карте Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! есть внутри составные карты? Пожалуйста, дайте ссылку хотя бы на одну составную карту, которая внутри Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Последнее редактирование: 19 май 2018
  15. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    44
    Дико извиняюсь за свои объяснения. Попробую еще раз.
    Вот карта сайта Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    При ее открытии мы получаем другие карты сайтов. Я предположил, что это есть составные карты сайты. Если я ошибся, то извиняюсь.

    Итак, загрузив данную карта сайта я получаю вот такие вот ссылки на другие карты сайтов.
    sm.jpg

    мне нужно взять только статьи, то есть карты сайтов вот такие
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    и так далее, чтобы не брать лишнее.

    Вопрос: Можно ли куда-то вставить эти карты cайтов статей и получить ссылки со всего списка?

    В настоящее время я мог бы вставить Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! поставить HasChildreMap, но тогда ссылки возьмутся со всех дочерних карт, а мне это не нужно. к тому же эта функция не срабатывает на этом сайте, возможно потому что дочерние имеют формат .gz
    либо я могу брать каждую дочернюю карту по одной и получать ссылки. Вот меня и интересует можно ли как-то списком получить все ссылки.
     
  16. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    2018-05-20_03-09-38.png
     

    Вложения:

    • XMLc.cdp
      Размер файла:
      36,5 КБ
      Просмотров:
      3
    xLime и Vesb нравится это.
  17. Vesb

    Vesb Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    44
    круто! вот это оперативность! спасибо!
     
  18. Gary

    Gary New Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    3
    А можно как-то отключить проверку на дубли при парсинге ссылок с вложенных карт?
    777.jpg
    Начинается парсинг бодренько, но через 5 минут скорость падает в сотни раз, я так понимаю это проверка на дубли воду мутит...
    Я пробовал вставлять руками 100 вложенных карт - это заняло у меня минут 15,
    а на автомате эти же 100 карт уже парсит не один час, и я сомневаюсь что дойдет до конца
     
    Последнее редактирование: 4 ноя 2018
  19. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.736
    Город:
    Сочи
    Предоставьте ссылку на эту карту сайта для тестирования.
     
  20. Gary

    Gary New Member Пользователи

    Регистрация:
    9 фев 2014
    Сообщения:
    3
    @Root
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 9500 постов.**
     

Поделиться этой страницей