Зависает при парсинге на 18%

Тема в разделе "Решение проблем с использованием программы", создана пользователем rumakina, 24 фев 2021.

  1. rumakina

    rumakina New Member Пользователи

    Регистрация:
    9 окт 2020
    Сообщения:
    9
    Город:
    Нальчик
    Помогите, пожалуйста, понять, в чем проблема.
    Ставлю на парсинг простого текста 150 ссылок.
    Запускаю сохранение в один файл.
    Зависает после 28 ссылки примерно (на 18% выполнения).
    Разбила список ссылок по 25 в файл. На второй группе виснет.
    Пробовала удалить часть ссылок. Не помогает. Он просто проходит 18% и потом ни туда и не сюда. Использую только 1 поток. Парсинг только текста. Без картинок, без ссылок.

    Что нужно делать, чтобы исправить ситуацию?
     
  2. rumakina

    rumakina New Member Пользователи

    Регистрация:
    9 окт 2020
    Сообщения:
    9
    Город:
    Нальчик
    вопрос отчасти решен. обнаружила, что зависает парсинг только на ссылках с домена FB.RU
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Приложите файл проекта со ссылками, чтобы я запустил и протестировал.
     
  4. rumakina

    rumakina New Member Пользователи

    Регистрация:
    9 окт 2020
    Сообщения:
    9
    Город:
    Нальчик
    Здравствуйте!
    Приложила.
    Так и не поняла, что там с этим доменом не так.
     

    Вложения:

  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вешает конструкция поиск-замены (возможно, регулярное выражение составлено некорректно):
    Код:
    re:<h(\d+)(.*?)>(.*?)(<\/h\d+>)|%%%<h$1>$3$4###
    При использовании re: включается компонент регулярных выражений (это сторонняя разработка).
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Добавьте \/|/ вот так:
    Код:
    \/|/
    re:<h(\d+)(.*?)>(.*?)(<\/h\d+>)|%%%<h$1>$3$4###
    %%%{get}###|{multiget}
    > <|><
    <h1>|#10#
    </h1>|#11#
    <h2>|#20#
    </h2>|#21#
    <h3>|#30#
    </h3>|#31#
    <h4>|#40#
    </h4>|#41#
    <h5>|#50#
    </h5>|#51#
    <h6>|#60#
    </h6>|#61#
    <h7>|#70#
    </h7>|#71#
    <h8>|#80#
    </h8>|#81#
    
    <{skip}>|
    
    #10#|<h1><#h1>
    #11#|</h1>
    #20#|<h2><#h2>
    #21#|</h2>
    #30#|<h3><#h3>
    #31#|</h3>
    #40#|<h4><#h4>
    #41#|</h4>
    #50#|<h5><#h5>
    #51#|</h5>
    #60#|<h6><#h6>
    #61#|</h6>
    #70#|<h7><#h7>
    #71#|</h7>
    #80#|<h8><#h8>
    #81#|</h8>
    Виснуть должно перестать.
     
  7. rumakina

    rumakina New Member Пользователи

    Регистрация:
    9 окт 2020
    Сообщения:
    9
    Город:
    Нальчик
    Вы не могли бы проверить, я правильно поняла, куда нужно вставить код?
    Если да, то все равно зависло на том же месте.

    Код:
    <#url><CD_DOCURL!><br><#title><CD_GRAN_1!><br>[FIRST_REPLACE(re:<h(\d+)(.*?)>(.*?)(<\/h\d+>)|%%%<h$1>$3$4###
    %%%{get}###|{multiget}
    > <|><
    <h1>|#10#
    </h1>|#11#
    <h2>|#20#
    </h2>|#21#
    <h3>|#30#
    </h3>|#31#
    <h4>|#40#
    </h4>|#41#
    <h5>|#50#
    </h5>|#51#
    <h6>|#60#
    </h6>|#61#
    <h7>|#70#
    </h7>|#71#
    <h8>|#80#
    </h8>|#81#
    
    <{skip}>|
    
    #10#|<h1><#h1>
    #11#|</h1>
    #20#|<h2><#h2>
    #21#|</h2>
    #30#|<h3><#h3>
    #31#|</h3>
    #40#|<h4><#h4>
    #41#|</h4>
    #50#|<h5><#h5>
    #51#|</h5>
    #60#|<h6><#h6>
    #61#|</h6>
    #70#|<h7><#h7>
    #71#|</h7>
    #80#|<h8><#h8>
    #81#|</h8>)]
    [DOCSOURCE][/FIRST_REPLACE]
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы никуда не добавили конструкцию.

    Код:
    <#url><CD_DOCURL!><br><#title><CD_GRAN_1!><br>[FIRST_REPLACE(\/|/
    re:<h(\d+)(.*?)>(.*?)(<\/h\d+>)|%%%<h$1>$3$4###
    %%%{get}###|{multiget}
    > <|><
    <h1>|#10#
    </h1>|#11#
    <h2>|#20#
    </h2>|#21#
    <h3>|#30#
    </h3>|#31#
    <h4>|#40#
    </h4>|#41#
    <h5>|#50#
    </h5>|#51#
    <h6>|#60#
    </h6>|#61#
    <h7>|#70#
    </h7>|#71#
    <h8>|#80#
    </h8>|#81#
    
    <{skip}>|
    
    #10#|<h1><#h1>
    #11#|</h1>
    #20#|<h2><#h2>
    #21#|</h2>
    #30#|<h3><#h3>
    #31#|</h3>
    #40#|<h4><#h4>
    #41#|</h4>
    #50#|<h5><#h5>
    #51#|</h5>
    #60#|<h6><#h6>
    #61#|</h6>
    #70#|<h7><#h7>
    #71#|</h7>
    #80#|<h8><#h8>
    #81#|</h8>)]
    [DOCSOURCE][/FIRST_REPLACE]
     
  9. rumakina

    rumakina New Member Пользователи

    Регистрация:
    9 окт 2020
    Сообщения:
    9
    Город:
    Нальчик
    я - балда :) методом тыка всё не так получалось.
    Спасибо Вам огромное!
    Работает без подвисаний.
     
    Root нравится это.

Поделиться этой страницей