请选择 进入手机版 | 继续访问电脑版
收起左侧

php-Beanbun爬虫

[复制链接]

552

主题

569

帖子

1万

积分

管理员

站长

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

积分
16427

灌水之王

QQ
发表于 2018-2-12 12:36:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
文档和资源代码:

http://www.beanbun.org/#/

composer下来之后:

新家sart.php文件
代码如下:

[PHP] 纯文本查看 复制代码
<?php
require_once(__DIR__ . '/vendor/autoload.php');

use Beanbun\Beanbun;
$beanbun = new Beanbun;
$beanbun->seed = [
    'http://bbs.fologde.com/forum.php',
    'http://bbs.fologde.com/forum.php?mod=viewthread&tid=381&extra=',
    'http://bbs.fologde.com/forum.php?mod=viewthread&tid=380&extra=',
];
$beanbun->afterDownloadPage = function($beanbun) {
    file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();


运行方法:
cmd  :  php sart.php

也可以用apache 运行
运行后,会生成三个无后缀的文件  

这些文件的内容就是那三个网址其中一个的源码:

在获取到源码后,将文件内容读取到变量中,利用正则获取到自己想要的内容

再用上上一篇文章的获取文章部分url的方法,就可以获取到某些网站的内容,再添加到自己的数据库中



上一篇:php-利用curl抓取网站部分链接
下一篇:一键激活win10/win7/win8
QQ:2424004764
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|申请友链|Archiver|手机版|小黑屋|客户端下载|先锋者IT论坛 ( 湘ICP备16007032号湘公网安备 43030202001052号

GMT+8, 2024-4-19 08:43 , Processed in 0.088487 second(s), 16 queries , File On.

Powered by Discuz! X3.3

© 2017 bbs.fologde.com. Template By Gstudio

快速回复 返回顶部 返回列表