1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг контента по ключевым словам для сайтов

Тема в разделе "Техническая поддержка", создана пользователем woodoo, 10 фев 2015.

  1. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    Купил на днях а парсер, не могу разобраться как спарсить контент для сайтов по кеям. Нужно чтобы был такой результат вывода

    key (ключевик)|title (тайтл страницы, не более 10 слов)|snippet1 (сниппет, краткое описание)|text (тематический текст)|image1 (тематическая картинка)|image2|image3|youtube (тематическое видео)|li_block (мешанка из нескольких тематических слов, кеев)


    Такое реально сделать в а парсере?
    Помогите, очень надо!
     
    #1 woodoo, 10 фев 2015
    Последнее редактирование: 14 апр 2015
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    нужно определится откуда брать каждое значение
     
    woodoo нравится это.
  3. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    ключевые слова загружать из файла keys.txt
    тайтлы парсить из Bing
    сниппеты парсить из Bing
    текст парсить из Bing
    картинки из Google
    видео из Google
    li_block брать из keys.txt 4-5 блоков

    Сохранять в один файл с названием content.txt, каждый результат парсинга по кею с новой строки

    Надеюсь меня поняли, как смог обьяснил)
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    а какой формат этого keys.txt? какие там блоки?
     
    woodoo нравится это.
  5. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    li_block тогда уберем, я придумал как его делать отдельно
    а в keys.txt ключевые слова выглядят так
    ключевое слово 1
    ключевое слово 2
    ключевое слово 3
     
    #5 woodoo, 10 фев 2015
    Последнее редактирование: 10 фев 2015
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    на 1 кей по одной результирующей строке?
     
    woodoo нравится это.
  7. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    да, если можно то было бы отлично сделать так, чтобы сохраняло несколько результирующих строк в отдельные файлы, для того чтобы использовать как можно больше уникального контента на разных сайтах. По кею спарсилось несколько вариантов контента, и каждый вариант сохранился в отдельный файл, content.txt, content2.txt, content3.txt
    Я думаю многим это будет полезно, особенно дорвейщикам) у кого есть какие пожелания - предлагайте.
     
  8. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    а может проще в csv формате результат писать?
     
  9. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    ну если так будет проще то в csv, но все равно мне придется конвертировать в тхт)
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    уточню еще

    сниппет понятно, а текст?
     
  11. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    парсер только сниппеты парсит? статьи не умеет? тогда и сниппеты подойдут. извините, что не учел все ньюансы, столько вопросов осталось)
     
  12. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    мне бы какой никакой пример настроек, дальше может сам допру что к чему)
     
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    [​IMG]

    Вывод в 2 разных файла, разных результатов, по желанию можно добавить еще

    Код:
    eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJ2YWx1ZSI6
    eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJwYXJzZXJz
    IjpbWyJTRTo6QmluZyIsIjEwIExpbmtzIHVzZSBQcm94eSJdLFsiU0U6Okdvb2ds
    ZTo6SW1hZ2VzIiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXSxbIlNFOjpZb3VUdWJl
    IiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXV0sInJlc3VsdHNGb3JtYXQiOiIkcXVl
    cnl8JHAxLnNlcnAuMC5hbmNob3J8JHAxLnNlcnAuMC5zbmlwcGV0fCRwMi5zZXJw
    LjAubGlua3wkcDIuc2VycC4xLmxpbmt8JHAyLnNlcnAuMi5saW5rfDxpZnJhbWUg
    d2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMuc2VycC4wLmxp
    bmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+
    XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJj
    b250ZW50LzEudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltbImNvbnRlbnQvMi50
    eHQiLCIkcXVlcnl8JHAxLnNlcnAuMS5hbmNob3J8JHAxLnNlcnAuMS5zbmlwcGV0
    fCRwMi5zZXJwLjMubGlua3wkcDIuc2VycC40Lmxpbmt8JHAyLnNlcnAuNS5saW5r
    fDxpZnJhbWUgd2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMu
    c2VycC4xLmxpbmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+
    PC9pZnJhbWU+XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
    dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
    dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
    YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6dHJ1ZX0sImRvTG9n
    Ijoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl
    c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl
    cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd
    fSwicGFyc2Vyc0NvbmZQcmVzZXRzIjp7IlNFOjpCaW5nIjp7IjEwIExpbmtzIHVz
    ZSBQcm94eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJx
    dWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1h
    dCgnJGxpbmtcXG4nKSIsIm1heF9zaXplIjoiMTA0ODU3NiIsInByb3h5YmFubmVk
    Y2xlYW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAi
    LCJwYWdlY291bnQiOjEsImxpbmtzcGVycGFnZSI6MTAsInNlcnAiOiIiLCJzZXJw
    dGltZSI6IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1
    ZXJ5IjoiIn19LCJTRTo6R29vZ2xlOjpJbWFnZXMiOnsiRmlyc3QgUGFnZSB1c2Ug
    UHJveHkiOnsicHJveHlyZXRyaWVzIjoiMTAiLCJ1c2Vwcm94eSI6dHJ1ZSwicXVl
    cnlmb3JtYXQiOiIkcXVlcnkiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo
    JyRsaW5rXFxuJykiLCJtYXhfc2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xl
    YW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJw
    YWdlY291bnQiOjEsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRy
    YXF1ZXJ5IjoiIn19LCJTRTo6WW91VHViZSI6eyJGaXJzdCBQYWdlIHVzZSBQcm94
    eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZv
    cm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJGxp
    bmtcXG4nKSIsIm1heF9zaXplIjoiMjA0ODAwIiwicHJveHliYW5uZWRjbGVhbnVw
    IjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVxdWVzdGRlbGF5IjoiMCIsInBhZ2Vj
    b3VudCI6MSwiZ2wiOiIiLCJ1cGxvYWRlZCI6IiIsInNlYXJjaF90eXBlIjoiIiwi
    c2VhcmNoX2R1cmF0aW9uIjoiIiwiYWR2YW5jZWQiOiIiLCJzZWFyY2hfc29ydCI6
    IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1ZXJ5Ijoi
    In19fX0=


    умеет, для этого есть парсер HTML::TextExtractor HTML::TextExtractor
    только в этом случае парсинг усложнится, т.к. надо будет делать 2 прохода - получить ссылку откуда парсить статью(например из Bing), и на втором этапе спарсить статью

    могу позже выложить пример
     
    uomi и woodoo нравится это.
  14. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    Если не трудно то выложите как будет время! Спасибо, протестил парсер все работает как надо, но есть одно но), в контенте встречаются теги <strong>текст</strong>, может как то регулярками его удалять? конечно после парсинга можно заменой в блокноте это делать, но все же) Я почти понял как составлять задание для а парсера, еще раз спасибо.
     
  15. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    удалить теги можно добавив Конструктор Результатов -> Remove HTML tags, и указав на каком именно результате удалять
     
  16. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    а можно пример как это сделать? $p1.serp.0.anchor|$p1.serp.0.snippet вот с этих результатов нужно удалять теги, примерно понял как это сделать, но боюсь ошибиться)
     
  17. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    в wiki не смог найти информацию по Remove HTML tags
     
  18. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    [​IMG]
     
    uomi и woodoo нравится это.
  19. woodoo

    woodoo A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2015
    Сообщения:
    38
    Симпатии:
    5
    как в спаршенном контенте убирать ... (многоточие) в конце сниппета и в самих сниппетах символы типа таких &amp; &gt; &nbsp; &#0183; &#32; и тд ?
     
  20. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    многоточие можно убрать заменой ... на ничего

    также в конструктор результатов - Decode HTML entities
     
    uomi нравится это.

Поделиться этой страницей