首页>PHP多进程网络爬虫框架Beanbun

PHP多进程网络爬虫框架Beanbun

作者:xiaosong  日期:06-25
简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle

特点 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器) 默认使用 guzzle 进行爬取 支持分布式 支持内存、Redis 等多种队列方式 支持自定义URI过滤 支持广度优先和深度优先两种爬取方式 遵循 PSR-4 标准 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等) 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式... 安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun 快速开始

创建一个文件 start.php,包含以下内容

seed = [ 'http://www.uxuew.cn/', 'http://www.uxuew.cn/php/5988.html', 'http://www.uxuew.cn/php/681.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件 beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser
web前端|正则|JSP教程|ASP教程|
ajax教程|jquery教程|css教程|服务器|
操作系统|linux系统|SEO优化|网站运维|
织梦cms|javascript教程|html教程|编程开发|
php开发|数据库|Mysql教程|CMS建站教程|
phpcms教程|wordpress|apache服务器|
代码学堂-导航