Есть задача настроить проект для парсинга с сайтов Авито. Какие интересуют данные 1. Категория 2. Подкатегория 3. Название объявления 4. Описание...
Ищу на сайте в коде h1 Если много лишнего кода, как быстро найти нужный?
Не обращать внимание, при парсинге скачает всё?
В предпросмотре в виде html нет таблицы а в виде txt - в коде есть Как понять? Что-то вырезается? Будет нормально парсится?
Всем привет Скачиваю фото из повторяющихся границ. Прописано там [GRAN8]<DOWNLOADFILE><CD_GRAN_7!><DOWNLOADFILE> Однотитные имена и не то, что...
Нужно спарсить ссылки для внутреннего отчёта по nofollow ссылкам и поместить в таблицу. Понятно, нужно брать всю строку: <a...
Спасибо, пробую. А это? ” « » ... Я предварительно обрабатываю, удаляю все - ; Чтобы в csv не было переноса, есть другой вариант...
Переносит теги, тексты из данных подключаемого файла, границы тут не причём.
В файле или в программе?
Идёт парсинг с выводом кода из файла. Не выводится всё во второй столбец. Идёт разбивка кода и перенос на следующую строку первого столбца....
Суперское решение, есть одно но: Как привязать к определённому урлу нужный дополнительный урл? Сломал голову, 50 урлов.
Допустим урл https://sbfactory.ru/cd/#STOREPARSING Нужно взять 2 первых абзаца.
Возможно такое? Ведь одна ссылка в настройках - это один проход - один документ.
Допустим не нужен весь контент. Нужен 1,2,3,4 абзац. Как быть? Или это можно сделать в шаблоне вывода? Не нашёл.
Снял галку html to txt в дополнительные настройки границ парсинга. В фунции поиск-замена поставил <figcaption{skip}</figcaption>| Текст удалён А...
25 строчка - Текст внутри тега (Первое предложение без точки) Вырезает начинающий и заканчивающий тег figcaption а текст?
Обновил до последней версии. Не работает, остаётся текст на 26 строчке текст из первого урла.
Первая ссылка в списке, вторая и третья. Дальше не проверял.
Вот
Не заменяет [REPLACE(<figcaption{skip}</figcaption>|)]<CD_GRAN_2!>[/REPLACE] FINAL_REPLACE тоже
Имена участников (разделяйте запятой).