Возможен ли паралельный сбор ссылок и парсинг контента, если да то как?

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем drvoodoo, 22 янв 2018.

  1. drvoodoo

    drvoodoo Active Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    69
    Есть сайт с миллионами страниц, нужно с него собрать информацию. Но сталкиваюсь с проблемой что вначале нужно собрать ссылки, а потом пробигаться по ним, собирать информацию. Это неимоверно увеличивает временную затрату. Возможно ли как то сразу отправлять найденную ссылку на парсинг?
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте
    getmorecontent
     
    kagorec нравится это.
  3. drvoodoo

    drvoodoo Active Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    69
    Можно чуть подробней?
    getmorecontent это же шаблон вывода, а мне нужно чтобы найденная ссылка сразу передавалась в парсер.
    Совсем не понял взаимосвязи. В документации по этому вопросу тоже не каких мыслей.
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    На вкладке Контент ищите ваши ссылки и сразу их передаете в getmorecontent снимая данные
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Такой возможности нет.
     
  6. drvoodoo

    drvoodoo Active Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    69
    Эх... :( а Kreol надежду во мне зародил.
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    ТС, чтобы не растягивать тему на несколько страниц выспрашивая какой же сайт какие решения предложить соответствующие - стоило описать подробнее.
    Вы как спросили кратко так вам и ответили - логично?)

    По сути используя getmorecontent вы наврятли добьетесь скорости если со страницы категорийной будет выпарсивать одновременно 25 getmorecontent.
    Отследить качество парсинга сложнее, скорость одинакова с тем же прямым парсингом по товарным ссылкам собранными со сканера.

    п.с. нужны подробности об источнике.
     
    Kreol нравится это.
  8. drvoodoo

    drvoodoo Active Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    69
    Полностью с Вами согласен, начинаю исправляться. :oops:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Таких страниц миллионы. Я понимаю что только ссылки я буду много месяцев собирать, а после этого столько же контент.

    Если чего то ещё не описал, простите\говорите до опишу.
     
    Последнее редактирование: 22 янв 2018
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Не малый объем работ по парсингу этих вариантов запросов собирать))
    /popular.html со страницы собираем через F6 выделив область, потом в сканер в список очереди и по маске /popular/ и .html , далее распарсивать.
    Легче тут не придумать, все что нужно собрать придется стандартным путем через выделение границ и повторяющиеся границы (смежные категории, похожие запросы).
     
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ну и все это разделять на 10-ки проектов, а не парсить все в 1
     
    kagorec нравится это.
  11. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Ага. Чтоб эти миллионы выпарсивать, придеться делить списки ссылок для проектов.
    drvoodoo, если не секрет - вы собираетесь поднять аналог алиекспресса в России?))
     
    Kreol нравится это.
  12. drvoodoo

    drvoodoo Active Member Пользователи

    Регистрация:
    30 дек 2016
    Сообщения:
    69
    Не совсем. Обучаем нейроночку (искусственный интеллект). А тут как раз нужная информация
     
    Последнее редактирование: 23 янв 2018
    xLime и kagorec нравится это.

Поделиться этой страницей