Проект с большим числом повторяющихся границ, пропуск ссылок

Тема в разделе "Решение различных задач по парсингу", создана пользователем Atms, 14 июн 2018.

  1. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    21
    Здравствуйте! Столкнулся в который раз с проблемой, когда в проекте возникает много повторяющихся границ. CD_DOCURL отрабатывает некорректно + возникает множество пропусков ссылок.
    Пробовал множество маневров с кол-вом потоков, паузами и т.д.
    Подскажите пожалуйста варианты. Проект приложил.
     

    Вложения:

    • zoon_ru2.cdp
      Размер файла:
      66,2 КБ
      Просмотров:
      7
  2. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    21
    Проблема ещё актуальна, может кто помочь?
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.056
    Из первого сообщения не понятно чем можно помочь. Подробнее можете описать что парсите и в каком виде желаете получать результат?
     
  4. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    21
    На выходе получаю структуру услуг (она формируется верно) + конечный файл, в котором название конкретной клиники, список оказываемых ею мед процедур, мед операций их цен, характеристик. Однако функция CD_DOCURL выдает некорректные данные видимо ввиду того что в процессе выполнения повторяющихся границ к примеру первой ссылки, остальные ссылки продолжают по списку идти. Что более проблематичнее, возникает пропуск ссылок, даже если парсю в один поток. Может есть какая опция, паузы именно между отработками ссылок.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.056
    CD_DOCURL это ссылка из списка с которой парсер собрал всю информацию.
    Воспроизвести ошибку не удалось.
     
  6. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    21
    К примеру, в процессе обработки появляется в папке Прием\Консультации специалистов\Маммолог файл "Международный клинический центр АКТИВМЕД" Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! . В нем URL Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! хотя данные взяты со страницы
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    К тому времени как обходятся все повторяющиеся границы страницы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! список ссылок всё идет и идет, полагаю получается пропуск ссылок. Если указывать больше паузу между запросами, то все данные по ценам на услуги тоже не успевают собираться.
     
  7. Atms

    Atms Member Пользователи

    Регистрация:
    26 авг 2015
    Сообщения:
    21
    Может кто понять что я сделал не так ?
     
    Последнее редактирование: 21 июн 2018 в 22:03
Similar Threads
  1. chumaty
    Ответов:
    1
    Просмотров:
    952
  2. prah
    Ответов:
    2
    Просмотров:
    782
  3. artproma
    Ответов:
    9
    Просмотров:
    780
  4. dmitry__k
    Ответов:
    4
    Просмотров:
    863
  5. anton2
    Ответов:
    3
    Просмотров:
    662
Загрузка...

Поделиться этой страницей