Купил на днях а парсер, не могу разобраться как спарсить контент для сайтов по кеям. Нужно чтобы был такой результат вывода key (ключевик)|title (тайтл страницы, не более 10 слов)|snippet1 (сниппет, краткое описание)|text (тематический текст)|image1 (тематическая картинка)|image2|image3|youtube (тематическое видео)|li_block (мешанка из нескольких тематических слов, кеев) Такое реально сделать в а парсере? Помогите, очень надо!
ключевые слова загружать из файла keys.txt тайтлы парсить из Bing сниппеты парсить из Bing текст парсить из Bing картинки из Google видео из Google li_block брать из keys.txt 4-5 блоков Сохранять в один файл с названием content.txt, каждый результат парсинга по кею с новой строки Надеюсь меня поняли, как смог обьяснил)
li_block тогда уберем, я придумал как его делать отдельно а в keys.txt ключевые слова выглядят так ключевое слово 1 ключевое слово 2 ключевое слово 3
да, если можно то было бы отлично сделать так, чтобы сохраняло несколько результирующих строк в отдельные файлы, для того чтобы использовать как можно больше уникального контента на разных сайтах. По кею спарсилось несколько вариантов контента, и каждый вариант сохранился в отдельный файл, content.txt, content2.txt, content3.txt Я думаю многим это будет полезно, особенно дорвейщикам) у кого есть какие пожелания - предлагайте.
парсер только сниппеты парсит? статьи не умеет? тогда и сниппеты подойдут. извините, что не учел все ньюансы, столько вопросов осталось)
Вывод в 2 разных файла, разных результатов, по желанию можно добавить еще Спойлер: Код пресета Код: eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJ2YWx1ZSI6 eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJwYXJzZXJz IjpbWyJTRTo6QmluZyIsIjEwIExpbmtzIHVzZSBQcm94eSJdLFsiU0U6Okdvb2ds ZTo6SW1hZ2VzIiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXSxbIlNFOjpZb3VUdWJl IiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXV0sInJlc3VsdHNGb3JtYXQiOiIkcXVl cnl8JHAxLnNlcnAuMC5hbmNob3J8JHAxLnNlcnAuMC5zbmlwcGV0fCRwMi5zZXJw LjAubGlua3wkcDIuc2VycC4xLmxpbmt8JHAyLnNlcnAuMi5saW5rfDxpZnJhbWUg d2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMuc2VycC4wLmxp bmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+ XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJj b250ZW50LzEudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltbImNvbnRlbnQvMi50 eHQiLCIkcXVlcnl8JHAxLnNlcnAuMS5hbmNob3J8JHAxLnNlcnAuMS5zbmlwcGV0 fCRwMi5zZXJwLjMubGlua3wkcDIuc2VycC40Lmxpbmt8JHAyLnNlcnAuNS5saW5r fDxpZnJhbWUgd2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMu c2VycC4xLmxpbmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+ PC9pZnJhbWU+XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6dHJ1ZX0sImRvTG9n Ijoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd fSwicGFyc2Vyc0NvbmZQcmVzZXRzIjp7IlNFOjpCaW5nIjp7IjEwIExpbmtzIHVz ZSBQcm94eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJx dWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1h dCgnJGxpbmtcXG4nKSIsIm1heF9zaXplIjoiMTA0ODU3NiIsInByb3h5YmFubmVk Y2xlYW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAi LCJwYWdlY291bnQiOjEsImxpbmtzcGVycGFnZSI6MTAsInNlcnAiOiIiLCJzZXJw dGltZSI6IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1 ZXJ5IjoiIn19LCJTRTo6R29vZ2xlOjpJbWFnZXMiOnsiRmlyc3QgUGFnZSB1c2Ug UHJveHkiOnsicHJveHlyZXRyaWVzIjoiMTAiLCJ1c2Vwcm94eSI6dHJ1ZSwicXVl cnlmb3JtYXQiOiIkcXVlcnkiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo JyRsaW5rXFxuJykiLCJtYXhfc2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xl YW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJw YWdlY291bnQiOjEsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRy YXF1ZXJ5IjoiIn19LCJTRTo6WW91VHViZSI6eyJGaXJzdCBQYWdlIHVzZSBQcm94 eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZv cm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJGxp bmtcXG4nKSIsIm1heF9zaXplIjoiMjA0ODAwIiwicHJveHliYW5uZWRjbGVhbnVw IjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVxdWVzdGRlbGF5IjoiMCIsInBhZ2Vj b3VudCI6MSwiZ2wiOiIiLCJ1cGxvYWRlZCI6IiIsInNlYXJjaF90eXBlIjoiIiwi c2VhcmNoX2R1cmF0aW9uIjoiIiwiYWR2YW5jZWQiOiIiLCJzZWFyY2hfc29ydCI6 IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1ZXJ5Ijoi In19fX0= умеет, для этого есть парсер HTML::TextExtractor только в этом случае парсинг усложнится, т.к. надо будет делать 2 прохода - получить ссылку откуда парсить статью(например из Bing), и на втором этапе спарсить статью могу позже выложить пример
Если не трудно то выложите как будет время! Спасибо, протестил парсер все работает как надо, но есть одно но), в контенте встречаются теги <strong>текст</strong>, может как то регулярками его удалять? конечно после парсинга можно заменой в блокноте это делать, но все же) Я почти понял как составлять задание для а парсера, еще раз спасибо.
удалить теги можно добавив Конструктор Результатов -> Remove HTML tags, и указав на каком именно результате удалять
а можно пример как это сделать? $p1.serp.0.anchor|$p1.serp.0.snippet вот с этих результатов нужно удалять теги, примерно понял как это сделать, но боюсь ошибиться)
как в спаршенном контенте убирать ... (многоточие) в конце сниппета и в самих сниппетах символы типа таких & > ·   и тд ?