Парсинг контента по ключевым словам для сайтов

woodoo · 10 фев 2015

Купил на днях а парсер, не могу разобраться как спарсить контент для сайтов по кеям. Нужно чтобы был такой результат вывода

key (ключевик)|title (тайтл страницы, не более 10 слов)|snippet1 (сниппет, краткое описание)|text (тематический текст)|image1 (тематическая картинка)|image2|image3|youtube (тематическое видео)|li_block (мешанка из нескольких тематических слов, кеев)

Такое реально сделать в а парсере?
Помогите, очень надо!

Forbidden · 10 фев 2015

нужно определится откуда брать каждое значение

woodoo · 10 фев 2015

ключевые слова загружать из файла keys.txt
тайтлы парсить из Bing
сниппеты парсить из Bing
текст парсить из Bing
картинки из Google
видео из Google
li_block брать из keys.txt 4-5 блоков

Сохранять в один файл с названием content.txt, каждый результат парсинга по кею с новой строки

Надеюсь меня поняли, как смог обьяснил)

Forbidden · 10 фев 2015

woodoo сказал(а): ↑

li_block брать из keys.txt 4-5 блоков
Нажмите, чтобы раскрыть...

а какой формат этого keys.txt? какие там блоки?

woodoo · 10 фев 2015

li_block тогда уберем, я придумал как его делать отдельно
а в keys.txt ключевые слова выглядят так
ключевое слово 1
ключевое слово 2
ключевое слово 3

Forbidden · 10 фев 2015

на 1 кей по одной результирующей строке?

woodoo · 10 фев 2015

да, если можно то было бы отлично сделать так, чтобы сохраняло несколько результирующих строк в отдельные файлы, для того чтобы использовать как можно больше уникального контента на разных сайтах. По кею спарсилось несколько вариантов контента, и каждый вариант сохранился в отдельный файл, content.txt, content2.txt, content3.txt
Я думаю многим это будет полезно, особенно дорвейщикам) у кого есть какие пожелания - предлагайте.

Force68 · 10 фев 2015

а может проще в csv формате результат писать?

woodoo · 10 фев 2015

ну если так будет проще то в csv, но все равно мне придется конвертировать в тхт)

Forbidden · 11 фев 2015

уточню еще

woodoo сказал(а): ↑

сниппеты парсить из Bing
текст парсить из Bing
Нажмите, чтобы раскрыть...

сниппет понятно, а текст?

woodoo · 11 фев 2015

парсер только сниппеты парсит? статьи не умеет? тогда и сниппеты подойдут. извините, что не учел все ньюансы, столько вопросов осталось)

woodoo · 11 фев 2015

мне бы какой никакой пример настроек, дальше может сам допру что к чему)

Forbidden · 11 фев 2015

Вывод в 2 разных файла, разных результатов, по желанию можно добавить еще

Код:

eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJ2YWx1ZSI6
eyJwcmVzZXQiOiJ0b3BpYy0xNTA4IERvb3J3YXlzIENvbnRlbnQiLCJwYXJzZXJz
IjpbWyJTRTo6QmluZyIsIjEwIExpbmtzIHVzZSBQcm94eSJdLFsiU0U6Okdvb2ds
ZTo6SW1hZ2VzIiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXSxbIlNFOjpZb3VUdWJl
IiwiRmlyc3QgUGFnZSB1c2UgUHJveHkiXV0sInJlc3VsdHNGb3JtYXQiOiIkcXVl
cnl8JHAxLnNlcnAuMC5hbmNob3J8JHAxLnNlcnAuMC5zbmlwcGV0fCRwMi5zZXJw
LjAubGlua3wkcDIuc2VycC4xLmxpbmt8JHAyLnNlcnAuMi5saW5rfDxpZnJhbWUg
d2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMuc2VycC4wLmxp
bmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+
XFxuIiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJj
b250ZW50LzEudHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltbImNvbnRlbnQvMi50
eHQiLCIkcXVlcnl8JHAxLnNlcnAuMS5hbmNob3J8JHAxLnNlcnAuMS5zbmlwcGV0
fCRwMi5zZXJwLjMubGlua3wkcDIuc2VycC40Lmxpbmt8JHAyLnNlcnAuNS5saW5r
fDxpZnJhbWUgd2lkdGg9XCI1NjBcIiBoZWlnaHQ9XCIzMTVcIiBzcmM9XCIkcDMu
c2VycC4xLmxpbmtcIiBmcmFtZWJvcmRlcj1cIjBcIiBhbGxvd2Z1bGxzY3JlZW4+
PC9pZnJhbWU+XFxuIl1dLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
YWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6dHJ1ZX0sImRvTG9n
Ijoibm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJl
c3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRl
cnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltd
fSwicGFyc2Vyc0NvbmZQcmVzZXRzIjp7IlNFOjpCaW5nIjp7IjEwIExpbmtzIHVz
ZSBQcm94eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJx
dWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1h
dCgnJGxpbmtcXG4nKSIsIm1heF9zaXplIjoiMTA0ODU3NiIsInByb3h5YmFubmVk
Y2xlYW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAi
LCJwYWdlY291bnQiOjEsImxpbmtzcGVycGFnZSI6MTAsInNlcnAiOiIiLCJzZXJw
dGltZSI6IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1
ZXJ5IjoiIn19LCJTRTo6R29vZ2xlOjpJbWFnZXMiOnsiRmlyc3QgUGFnZSB1c2Ug
UHJveHkiOnsicHJveHlyZXRyaWVzIjoiMTAiLCJ1c2Vwcm94eSI6dHJ1ZSwicXVl
cnlmb3JtYXQiOiIkcXVlcnkiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo
JyRsaW5rXFxuJykiLCJtYXhfc2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xl
YW51cCI6IjMwMCIsInRpbWVvdXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJw
YWdlY291bnQiOjEsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRy
YXF1ZXJ5IjoiIn19LCJTRTo6WW91VHViZSI6eyJGaXJzdCBQYWdlIHVzZSBQcm94
eSI6eyJwcm94eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZv
cm1hdCI6IiRxdWVyeSIsImZvcm1hdHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJGxp
bmtcXG4nKSIsIm1heF9zaXplIjoiMjA0ODAwIiwicHJveHliYW5uZWRjbGVhbnVw
IjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVxdWVzdGRlbGF5IjoiMCIsInBhZ2Vj
b3VudCI6MSwiZ2wiOiIiLCJ1cGxvYWRlZCI6IiIsInNlYXJjaF90eXBlIjoiIiwi
c2VhcmNoX2R1cmF0aW9uIjoiIiwiYWR2YW5jZWQiOiIiLCJzZWFyY2hfc29ydCI6
IiIsInJhd2RhdGEiOmZhbHNlLCJkb19nemlwIjp0cnVlLCJleHRyYXF1ZXJ5Ijoi
In19fX0=

умеет, для этого есть парсер

HTML::TextExtractor
только в этом случае парсинг усложнится, т.к. надо будет делать 2 прохода - получить ссылку откуда парсить статью(например из Bing), и на втором этапе спарсить статью

могу позже выложить пример

woodoo · 11 фев 2015

Если не трудно то выложите как будет время! Спасибо, протестил парсер все работает как надо, но есть одно но), в контенте встречаются теги <strong>текст</strong>, может как то регулярками его удалять? конечно после парсинга можно заменой в блокноте это делать, но все же) Я почти понял как составлять задание для а парсера, еще раз спасибо.

Forbidden · 11 фев 2015

удалить теги можно добавив Конструктор Результатов -> Remove HTML tags, и указав на каком именно результате удалять

woodoo · 11 фев 2015

а можно пример как это сделать? $p1.serp.0.anchor|$p1.serp.0.snippet вот с этих результатов нужно удалять теги, примерно понял как это сделать, но боюсь ошибиться)

woodoo · 11 фев 2015

в wiki не смог найти информацию по Remove HTML tags

Forbidden · 11 фев 2015

woodoo · 1 апр 2015

как в спаршенном контенте убирать ... (многоточие) в конце сниппета и в самих сниппетах символы типа таких & >   ·   и тд ?

Forbidden · 2 апр 2015

многоточие можно убрать заменой ... на ничего

woodoo сказал(а): ↑

и в самих сниппетах символы типа таких & >   ·   и тд ?
Нажмите, чтобы раскрыть...

также в конструктор результатов - Decode HTML entities

Парсинг контента по ключевым словам для сайтов

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Force68 A-Parser Enterprise License
A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Парсинг контента по ключевым словам для сайтов

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Force68 A-Parser Enterprise License A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

woodoo A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Force68 A-Parser Enterprise License
A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

woodoo A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise