Сбор данных

Тема в разделе "Решение различных задач по парсингу", создана пользователем baracuda, 26 июн 2020.

  1. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Друзья направьте на путь истинный.
    Есть импортный сайт с кучей информации адреса, телефоны, родственники.
    Есть желание создать из этого некие связи.. некую записную книгу.
    Теория:
    1. Парсим васю - получаем общие данные(одно значение одна ячейка, телефон, улица, индекс),+ получаем список друзей(*), получаем список знакомых(**). Можно было бы распихать по ячейкам в конце(так как количество постоянно разное) если бы у нас были только друзья. но у на есть "плавающий" список ещё и знакомых.
    * - в одной ячейки может быть и 2 и 102 урла. вроде как не проблема но упираемся сразу в **
    ** - тоже самое может быть и 2 может быть и 102. а нам надо отделить друзей от знакомых.

    Окончательно запутался
    На выходе есть желание получить вот такой список.
    Название файла: Вася_петров_id_11111.
    сам файл(строка): Маша:Иванова:+7999-9999:Москва:ул. Ленина: и.т.д.
    и так от 2 до 102 друзей(строк)

    Формат ссылок друзей и знакомых простой на странице юзера.
    <ссылка>имя фамилия</a>, <ссылка1>имя1 фамилия1</a>, <ссылка2>имя2 фамилия2</a>,
    в строку..

    Заранее спасибо если подскажите само логику. а там постараюсь докрутить.

    P.S. как сохранять каждый результат в отдельный файл c именем и фамилией в название?
     
    Последнее редактирование: 26 июн 2020
  2. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    upload_2020-6-26_13-56-34.png

    Не понимаю что ему надо ? вроде с тайтлом(для тестов) то ошибиться нельзя.

    С этим подсказали. он весь массив ссылок сразу хочет открыть. а как же по одной открывать ?
     
    Последнее редактирование: 26 июн 2020
  3. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Так можно подружить
    GETMORECONTENT и Повторяющиеся границы ?

     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вставить макрос GETMORECONTENT в шаблон нужной повторяющейся границы (shift+ctrl+5).
     
  5. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Спасибо за подсказку. стало белее менее понятно. Новая проблема возникла, на изображение видно что я хочу убрать все знаки "-" в телефонах. Но нет. На выходе не один знак не пострадал...
    С чем это может быть связанно ? думал может знак не то.. всё перепробовал.. одно и тоже. и ещё бывают пустые строки... как с ними бороться, удалять.. в моём случае я формирую файл с записями на картинке это видно 3 возможных варианта.
    как пример:

    Вася Пупкин,* myContacts,Mobile,+1304-932-4138
    ,* myContacts,Mobile,
    Вася Пупкин,* myContacts,Mobile,

    Нужны записи только как первая строка. Подскажите, не понимаю пока тонкостей.
    Заранее спасибо

    upload_2020-6-27_6-17-8.png
     
  6. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Вопрос номер 2. в "классическом" варианте работы данная строка есть.
    Но в том варианте в котором я начал делать. данной строки нет.(первая строка таблицы)
    Как её активировать или что я делаю не так.. не могу понять.
    Ещё раз спасибо за подсказки


    upload_2020-6-27_8-29-21.png
     

    Вложения:

  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Символов похожих на тире несколько. Скопируйте нужный символ тире из кода WEB-документа и вставьте его в поле поиск-замены;
    2) В подсказке к этому текстовому полю указано, что строка заголовка сохраняется только при парсинге документов в 1 файл.
     
  8. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Пробовал копировать.
    Решил вопрос, в другой части документа нашёл без ( - )

    Ещё подскажите принцип замены. Пример идеала.
    Вася Пупкин,* myContacts,Mobile,+13049324138
    <CD_GRAN_2!>,* myContacts,Mobile,+1<CD_GRAN_10!>

    Но есть, где нет то имени, то телефона. разные причины... где то 404 выдаёт.

    Как и на каком этапе можно исключить запись данных строк. Понимаю что решение должно быть простое, но не могу найти.
    Что бы оставался только вариант который я указал. полноценный я бы его назвал. Остальное в утиль
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Выберите область кода и накройте макросом EXTRACTPHONES
     
  10. baracuda

    baracuda New Member Пользователи

    Регистрация:
    5 сен 2019
    Сообщения:
    21
    Город:
    cvr
    Не работает данное решение. Нужен вариант "если" пусто, то новую строку не создаём

    upload_2020-6-29_10-50-54.png
     
    Последнее редактирование: 29 июн 2020
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ctrl+4 -> Выбрать вкладку для границы парсинга с телефоном и включить у нее опцию "обязательна".
     

Поделиться этой страницей