Chuyển đến nội dung chính

SE::Bing::Images - Công cụ cào dữ liệu hình ảnh từ công cụ tìm kiếm Bing

Bing Images

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu hình ảnh từ kết quả tìm kiếm Bing. Nhờ công cụ cào dữ liệu SE::Bing::Images, bạn có thể nhận được cơ sở dữ liệu các liên kết hình ảnh hoặc hình ảnh sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn ở cùng định dạng mà bạn nhập vào thanh tìm kiếm của Bing.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu Bing để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn phụ từ tệp, lặp qua các tổ hợp chữ cái-số và danh sách để nhận được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện ở bất kỳ định dạng và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Các tình huống ứng dụng công cụ cào dữ liệu

A-Parser cho phép sử dụng chuỗi các tác vụ, sau khi hoàn thành tác vụ thứ nhất, tác vụ thứ hai sẽ bắt đầu thực hiện, trong đó các truy vấn cho tác vụ thứ hai sẽ là các liên kết từ tác vụ thứ nhất.

Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJyNVUtT2zAQ/iuMhkNoQ2IOvfjCBNpM6VBCIZxCOqPGa1cgS0aSA4zJf++ubPwI
JvQmrfa9334qmOP23l4asOAsCxcFy/yZhexEqGTvLOUJ7H3Vj0pqHoFhQ5ZxY8GQ
8oJdfwtD0gtDr2jxOYKY59Kx5XLI0BUe7VSblJPL/exoVPmvH6/5GuYaH2MhoRFP
8XbBUyCriDug11HsHQ0ORu6JPPAoEk5oxWUZgXJqot4o8ZCTvXUGU0R9vBoBdmp0
imIH3gkJn18zXLB9f2foJvf2v0obFsZcWhgyi+lOOSYTbb8IB4Y7bWYZ5YTygmk1
kfIc1iAbNe//JBcSu2knMRqdVYb9KrM3PjZ1ie1QazCPBnOovfjbyexnYxXpc51g
5dEfrFuKVDi821OdKxpOgMJ7gKzu24VGSaoN1GGcyaEOjqDJQEWo2ExtkjWiThWd
yXSFK61ikcwwfyMieNXM1RyROVOnOs0kUFmshFgXjLmFqwYwE1sNhS51utuuTn1A
6kMF1SFzWkv747pMPDMC8fiF0k2xre0cqtauuJQ3V+ed7Bp8kWedwEoLxUjXQaIR
UljXZlh01ucCXBh+n88vW3uDKgYSeEIv2BkHyh265wzC0adjQQ0YDzKVvNxlcJy8
JCI+8M1H/TkqoY2gvTCGP1fLQ8WVL6vcOp2W3aonhvK/wP0wXkWVo1jy1pbSatC+
+BLWXHqAKK2g8Y8b6vxMtIcLLR4o245ULlypV0VR2sFDziXbtPmi2X1fsh2XWzlS
eXq4X1RnVNiMiFFKtz2IUbmU7wC9D8O99PA/6NkJwqDZO6U/JK1tNnwHaW1Q9dMs
cibvWcKCWZ2bFbkpiY6wT8OldrLlsMbeeLD4PV5+Pri9HQ2Owy7k9nswV4GgNN8s
h80/0re2PXSxRbdBHxnVm9nDwkF7/7ZXusNiwTtEtP1v+HF9xOrBbkbffu6webDp
45hgx5/Uz5W7PoOg/RFQQD8D7PmRH1JJRvX/X7z90cMCjRqiwive7+xlaUkYr3Qw
pvV7f7T5B3ZQ48A=

Dữ liệu thu thập được

  • Liên kết đến hình ảnh
  • Chiều rộng và chiều cao của hình ảnh
  • Định dạng hình ảnh
  • Liên kết đến trang chứa hình ảnh
  • Anchor text
  • Hình ảnh xem trước (preview)
Dữ liệu thu thập được

Tính năng

  • Chỉ định số lượng trang
  • Chọn ngôn ngữ và quốc gia của kết quả tìm kiếm
  • Chọn các tùy chọn tìm kiếm an toàn

Các trường hợp sử dụng

  • Thu thập hình ảnh để làm nội dung cho blog và trang web của bạn
  • Thu thập cơ sở dữ liệu ảnh đại diện (avatar)

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, ví dụ:

dogecoin
Football
Waterfall
Speak in english
Cats and dogs
cars

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta sẽ chỉ định lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả độc nhất mới:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong vòng 16 giờ.

Các ví dụ về xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý, cũng như ở dạng có cấu trúc như CSV hoặc JSON.

Xuất mặc định

Định dạng kết quả:

$serp.format('$link\n')

Ví dụ kết quả:

https://image.cnbcfm.com/api/v1/image/104930399-6ED2-REQ-010517-Dogecoin.jpg?v=1529477162
https://i0.wp.com/promoterdigital.com/wp-content/uploads/2017/12/Como-Comprar-Dogecoin.png?ssl=1
https://www.shdon.com/blog/images/2014/03/dogecoin-meme.png
https://www.thecoinrepublic.com/wp-content/uploads/2019/05/dogecoin.jpg
https://static.india.com/wp-content/uploads/2021/01/dogecoin.jpg
https://i0.wp.com/criptotendencia.com/wp-content/uploads/2020/07/Dogecoin-Vuelve-el-efecto-TikTok.jpg?fit=1200%2C800&ssl=1
https://www.cryptonewsz.com/wp-content/uploads/2019/01/Dogecoin-DOGE-Price-Analysis-Jan.11.jpg
https://www.mebere.com/sites/default/files/inline-images/Invest in Dogecoin.jpg
https://www.thecoinrepublic.com/wp-content/uploads/2020/04/Dogecoin-Doge-logo2.png
https://assets.coingecko.com/coins/images/7670/large/DogeCoin-Private-logo.png?1549240189
https://thelibertarianrepublic.com/wp-content/uploads/2019/05/Screen-Shot-2019-05-17-at-2.01.29-PM.jpg
https://i.teknolojioku.com/storage/files/images/2021/01/29/dogecoin-1-b1lB_cover.jpg

Xuất ra bảng CSV

Định dạng kết quả:

[% FOREACH item IN serp;
tools.CSVline(query, item.link, item.width, item.height, item.type, item.pagelink, item.thumb, item.anchor);
END %]

Ví dụ kết quả:

dogecoin,https://interanalyst.us/wp-content/uploads/2018/01/dogecoin-logo.png,900,900,png,https://interanalyst.us/markets/cryptocurrency-trading-signals/dogecoin-doge/,https://tse1.mm.bing.net/th?id=OIP.MG983TODjELbLg7pfna_8AHaHa&pid=15.1,"Dogecoin | DOGE | Investment Charts with Algorithmic Trading Signals ..."
dogecoin,http://vkool.com/wp-content/uploads/2018/03/Dogecoin-1.jpg,1200,800,jpeg,https://vkool.com/dogecoin-doge-token-review/,https://tse1.mm.bing.net/th?id=OIP.Az4VhLecunYQo3ztj_waTgHaE8&pid=15.1,"Dogecoin (DOGE) Token Review (UPDATED 2018): What is It? | VKOOL"
dogecoin,https://www.cryptonewsz.com/wp-content/uploads/2019/02/Dogecoin.jpg,2048,1304,jpeg,https://www.cryptonewsz.com/price-analysis-of-dogecoin-doge/9113/,https://tse4.mm.bing.net/th?id=OIP.5B3vzuHUWNMGotGqJGWRCQHaEt&pid=15.1,"Price Analysis of Dogecoin (DOGE) - CryptoNewsZ"
dogecoin,https://digitalmoneytimes.com/wp-content/uploads/2018/09/dogecoin-petition.jpg,1000,750,jpeg,https://digitalmoneytimes.com/dogecoin-price-1-million-doge-nearly-equals-the-value-of-1-bitcoin/,https://tse3.mm.bing.net/th?id=OIP.-1QNz1XY_Ox2_MHmb2XqJAHaFj&pid=15.1,"Dogecoin Price: 1 Million Doge Nearly Equals the Value of 1 Bitcoin ..."
dogecoin,https://www.cryptonewsz.com/wp-content/uploads/2019/01/Dogecoin-DOGE-Price-Analysis-Jan.-22.jpg,1920,1200,jpeg,https://www.cryptonewsz.com/dogecoin-doge-price-analysis-jan-22/6798/,https://tse1.mm.bing.net/th?id=OIP.-CoV662aYK1YAz8SEo3KDwHaEo&pid=15.1,"Dogecoin (DOGE): Price Analysis, Jan. 22 - CryptoNewsZ"

Lưu ở định dạng SQL

Định dạng kết quả:

[% FOREACH serp;
"INSERT INTO serp VALUES('" _ query _ "', '"; link _ "', '"; anchor _ "', '"; pagelink _ "', '"; thumb _ "')\n";
END %]

Ví dụ kết quả:

INSERT INTO serp VALUES('dogecoin', 'https: //www.cryptonewsz.com/wp-content/uploads/2019/02/Dogecoin.jpg', 'Price Analysis of Dogecoin (DOGE) - CryptoNewsZ', 'https://www.cryptonewsz.com/price-analysis-of-dogecoin-doge/9113/', 'https://tse4.mm.bing.net/th?id=OIP.5B3vzuHUWNMGotGqJGWRCQHaEt&pid=15.1')
INSERT INTO serp VALUES('dogecoin', 'https: //interanalyst.us/wp-content/uploads/2018/01/dogecoin-logo.png', 'Dogecoin | DOGE | Investment Charts with Algorithmic ...', 'https://interanalyst.us/markets/cryptocurrency-trading-signals/dogecoin-doge/', 'https://tse1.mm.bing.net/th?id=OIP.MG983TODjELbLg7pfna_8AHaHa&pid=15.1')
INSERT INTO serp VALUES('dogecoin', 'https: //www.cryptonewsz.com/wp-content/uploads/2019/03/stack-of-dogecoins.jpg', 'Dogecoin (DOGE) Price Analysis : The Future of Dogecoin ...', 'https://www.cryptonewsz.com/dogecoin-doge-price-analysis-the-future-of-dogecoin-looks-very-bright/11091/', 'https://tse4.mm.bing.net/th?id=OIP.GLgXn-8nxIgTZNkUHpiQ3AHaGR&pid=15.1')
INSERT INTO serp VALUES('dogecoin', 'https: //cdn.vox-cdn.com/thumbor/G_w4Nyo9IJx5q5xa5E92vJCVyUQ=/21x0:539x345/1200x800/filters:focal(21x0:539x345)/cdn.vox-cdn.com/assets/3727699/Dogecoin_logo.png', 'Bitcoin is so 2013: Dogecoin is the new cryptocurrency on ...', 'http://www.theverge.com/2013/12/16/5216862/bitcoin-is-so-2013-dogecoin-is-new-crypto-currency-on-the-block', 'https://tse1.mm.bing.net/th?id=OIP.ILO1wN5PD5jq3AOdG13itQHaE8&pid=15.1')
INSERT INTO serp VALUES('dogecoin', 'https: //www.fxwrite.com/wp-content/uploads/2019/07/dogecoin.jpg', 'Dogecoin Price Showing Record 10.79% Uptrend Momentum', 'https://www.fxwrite.com/dogecoin-price-analysis-dogecoin-doge-is-showing-an-uptrend-momentum/', 'https://tse1.mm.bing.net/th?id=OIP.7ipqVaPp3hBRzmVPMmXYEQHaEK&pid=15.1')
INSERT INTO serp VALUES('dogecoin', 'https: //www.cryptonewsz.com/wp-content/uploads/2019/01/Dogecoin-DOGE-Price-Analysis-Jan.-22.jpg', 'Dogecoin (DOGE): Price Analysis, Jan. 22 - CryptoNewsZ', 'https://www.cryptonewsz.com/dogecoin-doge-price-analysis-jan-22/6798/', 'https://tse1.mm.bing.net/th?id=OIP.-CoV662aYK1YAz8SEo3KDwHaEo&pid=15.1')

Xuất kết quả sang JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.images = [];

FOREACH item IN p1.serp;
obj.images.push({
link = item.link
width = item.width
height = item.height
type = item.type
pagelink = item.pagelink
thumb = item.thumb
anchor = item.anchor
});
END;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[{
"images": [
{
"link": "http://mymodernmet.com/wp/wp-content/uploads/2017/03/gabrielius-khiterer-stray-cats-8.jpg",
"width": "750",
"anchor": "Dignified Stray Cat Photos Celebrate Their Unique Beauty",
"pagelink": "https://mymodernmet.com/gabrielius-khiterer-stray-cat-photos/",
"type": "jpeg",
"thumb": "https://tse3.mm.bing.net/th?id=OIP.ZjfS8JQc9sahsK0-w8dRFAHaKJ&pid=15.1",
"height": "1028"
},
{
"link": "https://cms.qz.com/wp-content/uploads/2016/09/catscolonizedbyboat.jpg?quality=75&strip=all&w=1400",
"width": "1400",
"anchor": "DNA shows that cats colonized most of the planet by boat ...",
"pagelink": "https://qz.com/793979/dna-evidence-shows-cats-colonized-earth-by-boat/",
"type": "jpeg",
"thumb": "https://tse1.mm.bing.net/th?id=OIP.V6n6qGkcNx4JquiU6AvbBAHaEK&pid=15.1",
"height": "788"
},
{
"link": "https://hddesktopwallpapers.in/wp-content/uploads/2015/09/cute-baby-cats-wallpaper.jpg",
"width": "2560",
"anchor": "cute baby cats wallpaper - HD Desktop Wallpapers | 4k HD",
"pagelink": "https://hddesktopwallpapers.in/cute-baby-cats-wallpaper/",
"type": "jpeg",
"thumb": "https://tse4.mm.bing.net/th?id=OIP.QdEkrZjd1c_VN_aUtleoFgHaEo&pid=15.1",
"height": "1600"
},

],
"query": "cats"
}]

mẹo

Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".

Các cài đặt có thể

Tham sốGiá trị mặc địnhMô tả
Pages count10Số lượng trang để cào dữ liệu
Safe searchModerateTìm kiếm an toàn
RegionBased on IPVùng
Interface languageAnyNgôn ngữ giao diện