SE::Pinterest - scraper de résultats de recherche Pinterest

Présentation du scraper
Scraper des résultats de recherche Pinterest. Grâce au scraper SE::Pinterest, vous pourrez obtenir des bases de liens d'images ou d'images prêtes pour une utilisation ultérieure. Vous pourrez également collecter des bases de domaines ou de textes pour la génération ultérieure de contenus. Vous pouvez utiliser les requêtes telles que vous les saisissez dans la barre de recherche de Pinterest.
Grâce au traitement multithread d'A-Parser, la vitesse de traitement des requêtes peut dépasser 4000 requêtes par minute, ce qui permet d'obtenir en moyenne environ 100000 résultats par minute.

Les fonctionnalités d'A-Parser permettent de sauvegarder les paramètres du scraper Pinterest pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore. Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Cas d'utilisation du scraper
Téléchargement d'images par lien
A-Parser permet d'utiliser une chaîne de tâches : à la fin de la première, l'exécution de la seconde commencera, en utilisant les liens de la première comme requêtes pour la seconde tâche.
Télécharger l'exemple
Comment importer un exemple dans A-Parser
eJyNVktT2zAQ/iuMJofQhsQcevGFCZRM6VCSQjiFdEbEa1cgS0aSQxiT/96V7PhV
J3Dzrval3W8/OSOG6mc9U6DBaOIvMpK4b+KTGRMGUDBHVzGN4Oi7fBVc0gAUGZCE
Kg3KeizI3aXvl8Z4FkBIU27IcjkgqMJPPZEqpjZoLzkdFhnKwzu6hrnEw5BxqNQT
lG5oDNYroAbs6TB0gfrHQ7OxEWgQMMOkoDzPYAuqst4L9pJaf20UExHao6gY6ImS
MaoNuCBW+barcEF6TiYYJnX+v3Mf4oeUaxgQjeVOKBYTtE8YtoAaqaaJrQn1GZFi
zPk1rIFXZi7+eco4tlKPQ3S6Khy7Tab/xdiWV6ynWoN6VVhDGcVJ59NflVcgr2WE
Nw8e8d6cxcygrC9kKuxwPFQ+AyRl324kamKpoExjVAplcoRNAiJAw2pq46RSNW7R
mExTuZIiZNEU61csgJ1lKuaIzam4kHHCwV6LOCDqJhJTDbcVYMa6GIoVynLboS5c
QtuHAqoDYqTk+uddXniiGOLxmy03xrbWayhau6Kc399eN6qr8OWwpc2DCKU0j2hK
rIeBSCKw7JI55PnkckOtt8Zj2CRUBBDkNW+X20HWWLIbML7/Yz6f1RYMTRREsMFI
2EIDwpyYtwT84ZczZjs16icien9K4Cx6j1h47KaE9nM0Qh9mF0gp+lZsme1CfrJK
tZFx3tZytKj/C9RNbacqAoWc1tbZ7pC9nrvCmnKHJCEFVPFxlY0bnnS4shsKQtcz
5ZuZ2xVZhDTwklJOtnViqUjCXVmP8vUdijQ+6WXFNxpsh5Z68rAd0BIp53s2ogvs
nTzyGZgdRKtXLaiQH7Jbmzb3QPLTuDvd7uFrJF/asc0Z0TJVK5smZ0y7RHb4tt1k
OSixOeov/oyWX48fHob9M78JyV4HJguQ5O62qPJJ6tr/Dt5p8bbXxWrlinfQuVdf
5DY3NOjQ28No7QfIjfOj58E7/DS0jxvPgrftIivvwOPWTbqHXhWv/qLYhG4GO+QU
ZFX+SmSt/wI/Q4+KxVBE+UnPcje7ADq3wYTakcLp9h+3SP7O
Données collectées
- Titres et descriptions des épingles (pins)
- Liens vers les images
- Domaines et liens vers la source
- ID de l'épingle
- Nom et nom d'utilisateur de l'auteur et de l'épingleur
Possibilités
- Scrape jusqu'à 100 pages de résultats
- Supporte l'indication du nombre de pages nécessaire
Cas d'utilisation
- Collecte d'images pour alimenter ses propres blogs
- Collecte de données textuelles pour la génération de textes
- Toute autre variante utilisant les données de Pinterest
Requêtes
Comme requêtes, il est nécessaire d'indiquer des phrases de recherche, par exemple :
Waterfall
Speak in english
Cats and dogs
cars
Substitutions de requêtes
Vous pouvez utiliser les macros intégrées pour multiplier les requêtes, par exemple si nous voulons obtenir une très grande base de forums, indiquons quelques requêtes de base dans différentes langues :
forum
forum
foro
论坛
Dans le format de requête, indiquons une itération de caractères de a à zzzz, cette méthode permet de faire pivoter au maximum les résultats de recherche et d'obtenir de nombreux nouveaux résultats uniques :
$query {az:a:zzzz}
Cette macro créera 475254 requêtes supplémentaires pour chaque requête de recherche initiale, ce qui donnera au total 4 x 475254 = 1901016 requêtes de recherche, un chiffre impressionnant, mais ce n'est pas du tout un problème pour A-Parser. À une vitesse de 2000 requêtes par minute, une telle tâche sera traitée en seulement 16 heures.
Exemples de sortie de résultats
A-Parser supporte un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON
Sortie par défaut
Format du résultat :
$serp.format('$image\n')
Exemple de résultat :
https://i.pinimg.com/originals/dd/ba/c6/ddbac6d4813a82c55a658bf3afe8b90e.jpg
https://i.pinimg.com/originals/2e/73/f4/2e73f44e74756c79950772fca4fbea7d.jpg
https://i.pinimg.com/originals/49/4f/72/494f7289e47ac7988611dc7a191e0f89.jpg
https://i.pinimg.com/originals/43/bb/28/43bb28b987d916f543e128c9cdb3464f.jpg
https://i.pinimg.com/originals/0c/d8/6a/0cd86ab71aae1e16fef47fef803998ee.jpg
https://i.pinimg.com/originals/5c/76/d5/5c76d519525457d9807a37c07d140f22.jpg
https://i.pinimg.com/originals/45/64/66/456466acb284572575ce693a35bb75a3.jpg
https://i.pinimg.com/originals/ad/b9/34/adb934d8393b64177c7a0a4195648e4e.jpg
https://i.pinimg.com/originals/b6/ef/70/b6ef705f7f6635bf4e895ee5d114714b.jpg
https://i.pinimg.com/originals/7a/e5/9c/7ae59c58c87f28ffb4568f7b817852eb.jpg
https://i.pinimg.com/originals/57/0d/9a/570d9a47a72e75c9c5419da8ca7b9776.jpg
...
Sortie dans un tableau CSV
Format du résultat :
[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.pinner_username, item.title, item.id);
END %]
Exemple de résultat :
"Speak in english ",https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest,,"Great Ways to Start a Sentence",289637819794664055
"Speak in english ",https://www.buzzfeed.com/maximilianzender/deutschlernen?sub=0_10833256#10833256,,"23 Fotos, die dich zur Weißglut bringen, wenn du gerade Deutsch lernst",84653667980063381
"Speak in english ",https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest,,"Great Ways to Start a Sentence",307089268347214342
"Speak in english ",https://www.sprachheld.de/category/englisch-lernen/,,"Englisch lernen: W-Fragen!",13792342597188564
"Speak in english ",http://knowyourmeme.com/photos/1176258-pen-pineapple-apple-pen,,"Avengers - I have a pen spoof | ""Pen Pineapple Apple Pen""",609604499561518518
"Speak in english ",https://lehrermarktplatz.de/material/222137/picture-dictionary-word-banks-all-about-english-vocabulary-wachsendes-paket,,"Picture Dictionary: All about English Vocabulary + Word Banks! Englisch Wörterbuch/Vokabeln UK & USA",19210735900566228
"Speak in english ",https://lehrermarktplatz.de/material/180602/conversation-bubbles-english-for-beginners-bearbeitbare-sprechblasen?utm_medium=social&utm_source=pinterest&utm_campaign=tailwind_tribes&utm_content=tribes&utm_term=1144892530_56228916_845126,,"Beginner Conversation Bubbles | Tafelmaterial Englisch Unterricht Grundschule & Klasse 5",314477986488878805
"Speak in english ",https://mobile.twitter.com/AndereDeutsch/status/648719176048222208,,Twitter,1829656081959551
"Speak in english ",https://die-lernlotsen.com/englische-redewendungen/,,"Wow! Englische Redewendungen, die du immer anwenden kannst",82612974406076695
...
Sauvegarde au format SQL
Format du résultat :
[% FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '";
link _ "', '";
image _ "', '";
pinner_username _ "')\n";
END %]
Exemple de résultat :
INSERT INTO serp VALUES('Speak in english ', 'https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest', 'https://i.pinimg.com/originals/dd/ba/c6/ddbac6d4813a82c55a658bf3afe8b90e.jpg', '')
INSERT INTO serp VALUES('Speak in english ', 'https://www.buzzfeed.com/maximilianzender/deutschlernen?sub=0_10833256#10833256', 'https://i.pinimg.com/originals/2e/73/f4/2e73f44e74756c79950772fca4fbea7d.jpg', '')
INSERT INTO serp VALUES('Speak in english ', 'https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest', 'https://i.pinimg.com/originals/49/4f/72/494f7289e47ac7988611dc7a191e0f89.jpg', 'TEFLcourse')
INSERT INTO serp VALUES('Speak in english ', 'https://www.sprachheld.de/category/englisch-lernen/', 'https://i.pinimg.com/originals/43/bb/28/43bb28b987d916f543e128c9cdb3464f.jpg', 'sprachheld')
INSERT INTO serp VALUES('Speak in english ', 'http://knowyourmeme.com/photos/1176258-pen-pineapple-apple-pen', 'https://i.pinimg.com/originals/0c/d8/6a/0cd86ab71aae1e16fef47fef803998ee.jpg', '')
INSERT INTO serp VALUES('Speak in english ', 'https://lehrermarktplatz.de/material/222137/picture-dictionary-word-banks-all-about-english-vocabulary-wachsendes-paket', 'https://i.pinimg.com/originals/5c/76/d5/5c76d519525457d9807a37c07d140f22.jpg', 'unterrichtmitspass')
INSERT INTO serp VALUES('Speak in english ', 'https://lehrermarktplatz.de/material/180602/conversation-bubbles-english-for-beginners-bearbeitbare-sprechblasen?utm_medium=social&utm_source=pinterest&utm_campaign=tailwind_tribes&utm_content=tribes&utm_term=1144892530_56228916_845126', 'https://i.pinimg.com/originals/45/64/66/456466acb284572575ce693a35bb75a3.jpg', '')
INSERT INTO serp VALUES('Speak in english ', 'https://mobile.twitter.com/AndereDeutsch/status/648719176048222208', 'https://i.pinimg.com/originals/ad/b9/34/adb934d8393b64177c7a0a4195648e4e.jpg', '')
INSERT INTO serp VALUES('Speak in english ', 'https://die-lernlotsen.com/englische-redewendungen/', 'https://i.pinimg.com/originals/b6/ef/70/b6ef705f7f6635bf4e895ee5d114714b.jpg', 'lernlotsen')
...
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.images = [];
FOREACH item IN p1.serp;
obj.images.push({
title = item.title
pinner_username = item.pinner_username
link = item.link
image = item.image
});
END;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[{
"query": "Speak in english",
"images": [
{
"link": "https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest",
"author": "",
"title": "Great Ways to Start a Sentence",
"image": "https://i.pinimg.com/originals/dd/ba/c6/ddbac6d4813a82c55a658bf3afe8b90e.jpg"
},
{
"link": "https://www.buzzfeed.com/maximilianzender/deutschlernen?sub=0_10833256#10833256",
"author": "",
"title": "23 Fotos, die dich zur Weißglut bringen, wenn du gerade Deutsch lernst",
"image": "https://i.pinimg.com/originals/2e/73/f4/2e73f44e74756c79950772fca4fbea7d.jpg"
},
{
"link": "https://www.teflcourse.net/english-grammar-corner/great-ways-to-start-a-sentence/?r=Pinterest",
"author": "TEFLcourse",
"title": "Great Ways to Start a Sentence",
"image": "https://i.pinimg.com/originals/49/4f/72/494f7289e47ac7988611dc7a191e0f89.jpg"
},
...
]
}]
Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, il faut activer "Plus d'options".
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Pages count | 5 | Nombre de pages à scraper |