Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. ramshaus

    ramshaus New Member Пользователи

    Регистрация:
    4 июл 2010
    Сообщения:
    6
    Адрес:
    Москва
    Город:
    Москва
    Пробывал скачивать каталоги товара с описание и не всегда скачиваются картинки, да же в пред просмотре в html вместо картинок квадратики (((
     
  2. WeXX

    WeXX El Perro Модератор Пользователи

    Регистрация:
    22 май 2010
    Сообщения:
    23
    Сегодня задумался что предложить для улучшения именно парсера?
    Очевидно что в инструменте подготовки импорта можно много чего добавить, чтобы облегчить жизнь молодым ГСоклепателям, к чему и сводятся все мои предложения.
    Сам парсер работает отлично и я не знал что еще ему нужно, но пару часов назад меня осенило!
    На многих сайтах нету страницы с картой сайта (такой, чтобы были гиперссылки), но зато почти на всех есть карта сайта вида Ссылки недоступны для гостей
    Content Downloader у меня отказывается находить ссылки на xml карте сайта.
    Добавьте, пожалуйста возможность взять ссылки из xml файла, причем с применением фильтров)
     
  3. sah

    sah New Member Пользователи

    Регистрация:
    20 мар 2010
    Сообщения:
    8
    Есть пожелания:
    1. для генерации html сайтов,
    а. как уже говорилось, нужно сделать возможность регулирования количества анонсов на страницу;
    б. латиница заголовка в урле страницы; ( в настоящее время берется из названия файла, но не всегда заголовок стоит в названии файла)
    в. на странице категории вставлять название категории заглавием;
    г. может не стоит на странице анонсов заглавия статей ставить в h1 (10 заголовков на одной странице в теге h1), хотя-бы в h2
    д. не нашел сохранение проекта импорта html
    е. было бы неплохо сделать вставку кода в текст (для html). например адсенс вставить
    2. для импорта в cms поддерживаю рандомное время отложенной публикации;
    также есть пожелание, чтобы была возможность выбора материалов на отложенную публикацию
     
    Последнее редактирование: 10 июл 2010
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Всем спасибо, постараюсь осуществить побыстрее (уж очень времени не хватает).
     
  5. Garant

    Garant New Member Пользователи

    Регистрация:
    21 июл 2010
    Сообщения:
    2
    Добавить функцию очистки html кода от различных <div> , <span> и тому подобного.
     
  6. WeXX

    WeXX El Perro Модератор Пользователи

    Регистрация:
    22 май 2010
    Сообщения:
    23
    +1 чтоб вместо них тупо ставил <p>
     
  7. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Здравствуйте!
    Приобрел не так давно, но точно могу сказать софтинка очень хороша и уже приносит свои плоды. За это создателю огромное спасибо!
    Но есть одно предложение, по доработке.... Лично в нем нуждаюсь, но думаю, что после реализации будет полезна (доработка) всем.

    Программка хорошо парсит, достойно генерирует html сайты и также достойно готовит файл импорта wp. Но у всех этих сгенерированных сайтов, остается один существенный недостаток - не уникальность текста. При желании сделать спарсеный текст читаемым для посетителей прогнав его через базу синонимов, добиться уникальности более чем 30% не удается. Сами понимаете как выглядит такой сайт в глазах поисковиков. А делать чисто ГС (с не читаемым текстом) только под поисковики сейчас не актуально.
    Так вот предложение: разбавлять на автомате спарсеный текст уникальным (из отдельного файла), но при этом скрывать его от глаз будущих посетителей помещая в скрытые div-ы. А если бы еще этот текст (уникальный) разбавить нужными кеями, то вообще бы ему цены не было:)
    Т.е. суть работы позаимствована у доргенов, и в итоге можно создать нормальный СДЛ (читаемый текст), но с уникальным на 80-90% контентом (для поисковиков), да еще и каждая страница заточена под нужный кейворд.
    Как бы это хотелось реализовывать:
    в закладке "автопростановка тегов" добавить следующее
    - что вставлять - тег <text>
    - путь к файлу с текстом
    - после скольки символов вставлять (а лучше - после какого количества предложений)
    - количество предложений вставляемого текста - выбирает рандомно в указаном диапазоне (например от 5 до 8 случайных предложений из файла с текстом)
    - стили DIVa в который будет помещаться тег <text> (для того чтобы можно сделать его скрытым)
    - кейворды - путь к файлу с кеями (по одному кею для каждой страницы)
    - плотность кеев (в процентном соотношении).

    Ну вот как бы все. Надеюсь понятно свою мысль изложил:eek:
    Еще раз спасибо автору за полезный софт!
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо, понял, будем думать в эту сторону.
     
  9. Vladigor

    Vladigor New Member Пользователи

    Регистрация:
    21 авг 2010
    Сообщения:
    2
    Можно ли реализовать при обработке и импорте контента, сделать сохранение проекта, чтобы в дальнейшем продолжать обрабатывать.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можно, в планах, сразу после реализации более важных идей.
     
  11. kofter

    kofter New Member Пользователи

    Регистрация:
    27 авг 2010
    Сообщения:
    4
    1) Хочется ещё добавить чтобы можно было указывать поля по бокам парсинга и чтобы при записи в файл спарсенное записывалось между этими полями.
    Ссылки недоступны для гостей
    2) Можно прикрутить такую функцию в сканер?
    1 стр Ссылки недоступны для гостей
    2 стр Ссылки недоступны для гостей
    3 стр Ссылки недоступны для гостей
    и затем ограничение на количество найденных ссылок на каждой из страниц, вот именно в этом варианте хватает примерно 30шт
    http://domen.com/201{num}/{num}/{num}/1/xxx.html и ограничение чтоб можно было выставить
    как то так
    3) Ещё хотелось бы чтобы можно было делать замены в каждом из парсенной информации...
    Т.е. была "кнопка замен" и там 2 поля "что заменить" и "на что заменить" для каждой парсенной информации разные... Т.е. как вариант с фильтрами ссылок, например 1 строка первого поля = замене 1 строки второго поля, 2 строка = замена строки 2 строкой второго поля, третяя строка = замена строки третей строкой второго поля и тд...
    Не знаю почему ещё никто такое не предложил автору. Отписался ему, надеюсь быстренько всё реализует
    4) Ещё хотелось бы функцию удаления такого кода:
    <!--AljkjhhdАбыывор--> <!--/AljkjhhdАбыывор--> Т.е. чтобы была галка - "удалить HTML комментарии"
     
  12. kofter

    kofter New Member Пользователи

    Регистрация:
    27 авг 2010
    Сообщения:
    4
    Нашёл вариант как бороться с комментариями, но хотелось бы делать это галочкой в настройке проекта...
    А так приходится заходить в массовую обработку файлов:
    Ссылки недоступны для гостей
     
  13. Vladigor

    Vladigor New Member Пользователи

    Регистрация:
    21 авг 2010
    Сообщения:
    2
    Можно ли сделать так, чтобы парсить сайты в web.archive.org.
     
  14. kofter

    kofter New Member Пользователи

    Регистрация:
    27 авг 2010
    Сообщения:
    4
    Очень нужно чтобы сканирование ссылок велось в несколько потоков, чтобы была возможность задать количество потоков при парсинге ссылок.
    Например как при парсинге контента можно задать от 1 до 10.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    А в чем проблема, разве сейчас не парсятся?
     
  16. Prosto

    Prosto New Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    1
    Город:
    Кумертау
    Пытался скачать с одного буржуйского каталога статей - забанили.
    Использование прокси не помешало бы...
     
    Последнее редактирование: 31 авг 2010
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ок, в планах, хотел бы уточнить пару моментов по прокси, стукните пожалуйста в ICQ 571-880-051.
    Спасибо.
     
  18. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Нужно попробовать его в связке с TOR может и не понадобится отдельно прокси делать, тем более их чекать нужно.

    Статья по настройки tor для ie (т.е. всего исходящего трафика)

     
  19. Proteus

    Proteus New Member Пользователи

    Регистрация:
    5 сен 2010
    Сообщения:
    4
    Возможно сделать импорт из файла, подготовленного для CMSimple? И экспорт в этот формат. Необходимо, для совместимости с программами по уникализации контента.
    Затем, интересует возможность изменения тайтлов категорий.
    Например, для создания иноязычных сайтов. Интересует возможность изменить и меню навигации по сайту: Карта сайта, читать дальше и пр. - с той-же целью.
    Как вариант, вынести их в отдельный файл, пригодный для редактирования.
    Или возможно, всё это доступно - справки просто по программе нет...:)
     
    Последнее редактирование: 5 сен 2010
  20. Piter

    Piter New Member Пользователи

    Регистрация:
    5 сен 2010
    Сообщения:
    2
    Подскажите, пожалуйста.

    Например, я спарсил сайт. Получилось множество html-файлов.
    Далее я хочу в тексте каждого из получившихся html-файлов вставить свою уникальную ссылку (или несколько уникальных ссылок).

    На данный момент в проге можно:
    - вставить в начало док-та
    - вставить в конец док-та
    - на указанную строку
    - вставить после каждой строки, содержащей ""

    Но вот в чем проблема. При данной вставке в каждый мой html вставится одно и тоже. А например, у меня есть пачка разных ссылок и в каждый спарсенный html я хочу вставлять именно разные (уникальные) ссылки. Как тогда быть?
     
    Последнее редактирование: 5 сен 2010

Поделиться этой страницей