парсинг множества запросов с одной страницы

Тема в разделе "Решение различных задач по парсингу", создана пользователем Семен Семеныч, 24 мар 2015.

  1. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Здравствуйте.
    Научился парсить данные с отдельных страниц
    Допустим стр 1 - фио, емайл и т.д
    Допустим стр 2 - фио, емайл и т.д

    А как спарсить если интересующие данные размещены на одной странице
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    А затем как объединить с информацией которую спарсил по каждому отдельному урл?

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    вам сюда Ссылки недоступны для гостей
     
  3. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    а по второй части вопроса?
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    А затем как объединить с информацией которую спарсил по каждому отдельному урл?
    использовать ексель и ручной труд
    либо использовать <GETMORECONTENT> Ссылки недоступны для гостей
     
  5. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Ручной труд тяжелый надо объединить несколько десятков файлов там на сотни тысяч контактов

    Хотелось сделать одну общую нормальную базу, в которой будут заполнены поля, ориентируясь на e-mail
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    формула ВПР в екселе
     
  7. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Оценил магическую фразу, а для простых смертных, что за заклинание ВПР?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Сначала собрать ссылки на карточки людей.

    Затем по этим ссылкам парсить нужные данные в один CSV-файл.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Здраствуйте, все довольно просто осуществимо без применения сторонних программ.
    1. Первый проект парсера вы уже сделали где собирает с категорийных страниц имя и назначение и линк на профиль (допустим)
    2. Второй проект остается сделать, который собирает подробную информацию профилей в полном обзоре фрилансеров.

    У обоих проектов после парсинга получаются отдельные документы, у которых от каждого фрилансера есть совпадающая и уникальная информация (майл или никнейм)

    Откройте Content Downloader и используйте "редактор CSV файлов" подробнее:
    Ссылки недоступны для гостей

    п.с. Это тот же самый ответ, что написал господин Root, только развернуто.) Если возникнут вопросы, обращайтесь.
     
    Последнее редактирование: 25 мар 2015
  10. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Спасибо, поизучал по слиянию.
    У меня какая ситуация, есть N количество файлов (овер куча), надерганных из разных источников в которых есть поля

    ФИО, Тел, скайп, e-mail, специализация, город и т.д., а так как он надерган из разных источников то много дубликатов и пересечений.
    Общее количество уже около 700 тыс, а реально я думаю там контактов 200-300, остальное это дубликаты
    Хотелось бы взять 1 файл и заполнить недостающие данные из других файлов

    Допустим по скайпу, или e-mail, чтобы сделать одну полную базу клиентов

    Можно ли так сделать?
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    без ручного труда нет.
    1) открываете все файлы и приводите колонки к единому виду, потом сливаете все вкучу сортируете и делаете удаление дублей.
    Или вы думаете, что есть магические программы, которые это сделают за вас?
     
  12. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Хотелось бы конечно, чтобы они были, задача не кажется невыполнимой технически и полуавтоматически
     
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Для того чтоб делать это автоматически, нужно эту автоматику создать.
    Как вы себе это представляете?
    Сделайте как советует господин Root - собрать из всех файлов начальные запросы, объединить в общий список и спарсить заново.
     
  14. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    я не представляю как соответствие сделать, между профилями.
    Грубо говоря мне надо получить в одном файле контактную информацию и специализацию, они размещены на разных страницах, спарсить 1 страница - 1 набор данных я научился, а вот с одной страницы много даных, а потом объединить с остальными, как их между собой автоматически - не получается
     
  15. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    <GETMORECONTENT> в помощь
    видео по формуле ВПР
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
Similar Threads
  1. namazi74
    Ответов:
    2
    Просмотров:
    2.476
  2. МАРКИ
    Ответов:
    6
    Просмотров:
    1.607
  3. Makdak
    Ответов:
    3
    Просмотров:
    1.673
  4. White200570
    Ответов:
    8
    Просмотров:
    1.495
  5. sawwwok
    Ответов:
    1
    Просмотров:
    922
Загрузка...

Поделиться этой страницей