Парсинг контента по ключевым словам для сайтов

  • Автор темы Автор темы woodoo
  • Дата начала Дата начала

woodoo

A-Parser Pro License
A-Parser Pro
Купил на днях а парсер, не могу разобраться как спарсить контент для сайтов по кеям. Нужно чтобы был такой результат вывода

key (ключевик)|title (тайтл страницы, не более 10 слов)|snippet1 (сниппет, краткое описание)|text (тематический текст)|image1 (тематическая картинка)|image2|image3|youtube (тематическое видео)|li_block (мешанка из нескольких тематических слов, кеев)


Такое реально сделать в а парсере?
Помогите, очень надо!
 
Последнее редактирование:
нужно определится откуда брать каждое значение
 
ключевые слова загружать из файла keys.txt
тайтлы парсить из Bing
сниппеты парсить из Bing
текст парсить из Bing
картинки из Google
видео из Google
li_block брать из keys.txt 4-5 блоков

Сохранять в один файл с названием content.txt, каждый результат парсинга по кею с новой строки

Надеюсь меня поняли, как смог обьяснил)
 
li_block тогда уберем, я придумал как его делать отдельно
а в keys.txt ключевые слова выглядят так
ключевое слово 1
ключевое слово 2
ключевое слово 3
 
Последнее редактирование:
на 1 кей по одной результирующей строке?
 
да, если можно то было бы отлично сделать так, чтобы сохраняло несколько результирующих строк в отдельные файлы, для того чтобы использовать как можно больше уникального контента на разных сайтах. По кею спарсилось несколько вариантов контента, и каждый вариант сохранился в отдельный файл, content.txt, content2.txt, content3.txt
Я думаю многим это будет полезно, особенно дорвейщикам) у кого есть какие пожелания - предлагайте.
 
а может проще в csv формате результат писать?
 
ну если так будет проще то в csv, но все равно мне придется конвертировать в тхт)
 
парсер только сниппеты парсит? статьи не умеет? тогда и сниппеты подойдут. извините, что не учел все ньюансы, столько вопросов осталось)
 
мне бы какой никакой пример настроек, дальше может сам допру что к чему)
 
AzYvn.png


Вывод в 2 разных файла, разных результатов, по желанию можно добавить еще

Код:
eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJ2YWx1ZSI6
eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJwYXJzZXJz
IjpbWyJTRTo6QmluZyIsIjEwIExpbmtzIHVzZSBQcm94eSJdLFsiU0U6Okdvb2ds
ZTo6SW1hZ2VzIiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXSxbIlNFOjpZb3VUdWJl
IiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXV0sInJlc3VsdHNGb3JtYXQiOiIkcXVl
cnl8JHAxLnNlcnAuMC5hbmNob3J8JHAxLnNlcnAuMC5zbmlwcGV0fCRwMi5zZXJw
LjAubGlua3wkcDIuc2VycC4xLmxpbmt8JHAyLnNlcnAuMi5saW5rfDxpZnJhbWUg
d2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMuc2VycC4wLmxp
bmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+
XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJj
b250ZW50LzEudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltbImNvbnRlbnQvMi50
eHQiLCIkcXVlcnl8JHAxLnNlcnAuMS5hbmNob3J8JHAxLnNlcnAuMS5zbmlwcGV0
fCRwMi5zZXJwLjMubGlua3wkcDIuc2VycC40Lmxpbmt8JHAyLnNlcnAuNS5saW5r
fDxpZnJhbWUgd2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMu
c2VycC4xLmxpbmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+
PC9pZnJhbWU+XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6dHJ1ZX0sImRvTG9n
Ijoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl
c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl
cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd
fSwicGFyc2Vyc0NvbmZQcmVzZXRzIjp7IlNFOjpCaW5nIjp7IjEwIExpbmtzIHVz
ZSBQcm94eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJx
dWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1h
dCgnJGxpbmtcXG4nKSIsIm1heF9zaXplIjoiMTA0ODU3NiIsInByb3h5YmFubmVk
Y2xlYW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAi
LCJwYWdlY291bnQiOjEsImxpbmtzcGVycGFnZSI6MTAsInNlcnAiOiIiLCJzZXJw
dGltZSI6IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1
ZXJ5IjoiIn19LCJTRTo6R29vZ2xlOjpJbWFnZXMiOnsiRmlyc3QgUGFnZSB1c2Ug
UHJveHkiOnsicHJveHlyZXRyaWVzIjoiMTAiLCJ1c2Vwcm94eSI6dHJ1ZSwicXVl
cnlmb3JtYXQiOiIkcXVlcnkiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo
JyRsaW5rXFxuJykiLCJtYXhfc2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xl
YW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJw
YWdlY291bnQiOjEsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRy
YXF1ZXJ5IjoiIn19LCJTRTo6WW91VHViZSI6eyJGaXJzdCBQYWdlIHVzZSBQcm94
eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZv
cm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJGxp
bmtcXG4nKSIsIm1heF9zaXplIjoiMjA0ODAwIiwicHJveHliYW5uZWRjbGVhbnVw
IjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVxdWVzdGRlbGF5IjoiMCIsInBhZ2Vj
b3VudCI6MSwiZ2wiOiIiLCJ1cGxvYWRlZCI6IiIsInNlYXJjaF90eXBlIjoiIiwi
c2VhcmNoX2R1cmF0aW9uIjoiIiwiYWR2YW5jZWQiOiIiLCJzZWFyY2hfc29ydCI6
IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1ZXJ5Ijoi
In19fX0=


парсер только сниппеты парсит? статьи не умеет?

умеет, для этого есть парсер HTML::TextExtractor HTML::TextExtractor
только в этом случае парсинг усложнится, т.к. надо будет делать 2 прохода - получить ссылку откуда парсить статью(например из Bing), и на втором этапе спарсить статью

могу позже выложить пример
 
Если не трудно то выложите как будет время! Спасибо, протестил парсер все работает как надо, но есть одно но), в контенте встречаются теги <strong>текст</strong>, может как то регулярками его удалять? конечно после парсинга можно заменой в блокноте это делать, но все же) Я почти понял как составлять задание для а парсера, еще раз спасибо.
 
удалить теги можно добавив Конструктор Результатов -> Remove HTML tags, и указав на каком именно результате удалять
 
а можно пример как это сделать? $p1.serp.0.anchor|$p1.serp.0.snippet вот с этих результатов нужно удалять теги, примерно понял как это сделать, но боюсь ошибиться)
 
как в спаршенном контенте убирать ... (многоточие) в конце сниппета и в самих сниппетах символы типа таких &amp; &gt; &nbsp; &#0183; &#32; и тд ?
 
Назад
Верх