DRBD源码分析（三）——块设备驱动和IO队列处理函数

作者：童燕群 | 发布日期：十月 12, 2013 | 阅读次数（10,983） | 评论（10） |

微信扫描，分享到朋友圈和群

很长时间没有继续这个源码分析了，原因是到了主流业务，对底层的驱动知识不太了解，也没有太多时间。

在上一节中分析到

STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)

方法。在该方法中有一处调用：

mdev = ensure_mdev(nlp);

在这个调用中，会进行设备的注册和驱动的加载。这一节重点分析struct drbd_conf* drbd_new_device(unsigned int minor)方法。该方法主要是一个块设备的驱动。关于块设备的驱动程序的编写，可以参考CU上面的赵磊的帖子，该帖子绘声绘色的讲解了如何从0基础开始编写块设备驱动：链接。

对于每一个块设备，会进行一系列的初始化，会启动3个内核线程：

drbd_thread_init(mdev, &mdev->receiver, drbdd_init); 
drbd_thread_init(mdev, &mdev->worker, drbd_worker); 
drbd_thread_init(mdev, &mdev->asender, drbd_asender);

其中drbd_init线程负责与对端建立连接，是接受进程也是初始化进程，所以该进程的一些命名有一些奇怪。在启动完这三个线程后，主线程继续注册块设备驱动。

struct drbd_conf* drbd_new_device(unsigned int minor)
{
    struct drbd_conf* mdev;
    struct gendisk* disk;
    struct request_queue* q;

    /* GFP_KERNEL, we are outside of all write-out paths */
    mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
    if (!mdev)
        return NULL;
    if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
        goto out_no_cpumask;

    mdev->minor = minor;

    drbd_init_set_defaults(mdev);

    q = blk_alloc_queue(GFP_KERNEL);
    if (!q)
        goto out_no_q;
    mdev->rq_queue = q;
    q->queuedata = mdev;
    blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);

    disk = alloc_disk(1);
    if (!disk)
        goto out_no_disk;
    mdev->vdisk = disk;

    set_disk_ro(disk, TRUE);

    disk->queue = q;
    disk->major = DRBD_MAJOR;
    disk->first_minor = minor;
    disk->fops = &drbd_ops;
    sprintf(disk->disk_name, "drbd%d", minor);
    disk->private_data = mdev;

    mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
    /* we have no partitions. we contain only ourselves. */
    mdev->this_bdev->bd_contains = mdev->this_bdev;

    q->backing_dev_info.congested_fn = drbd_congested;
    q->backing_dev_info.congested_data = mdev;

    blk_queue_make_request(q, drbd_make_request_26);
    blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
    blk_queue_merge_bvec(q, drbd_merge_bvec);
    q->queue_lock = &mdev->req_lock; /* needed since we use */
    /* plugging on a queue, that actually has no requests! */
    q->unplug_fn = drbd_unplug_fn;

    mdev->md_io_page = alloc_page(GFP_KERNEL);
    if (!mdev->md_io_page)
        goto out_no_io_page;

    if (drbd_bm_init(mdev))
        goto out_no_bitmap;
    /* no need to lock access, we are still initializing this minor device. */
    if (!tl_init(mdev))
        goto out_no_tl;

    mdev->app_reads_hash = kzalloc(APP_R_HSIZE * sizeof(void *), GFP_KERNEL);
    if (!mdev->app_reads_hash)
        goto out_no_app_reads;

    mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
    if (!mdev->current_epoch)
        goto out_no_epoch;

    INIT_LIST_HEAD(&mdev->current_epoch->list);
    mdev->epochs = 1;

    return mdev;

    /* out_whatever_else:
        kfree(mdev->current_epoch); */
    out_no_epoch:
    kfree(mdev->app_reads_hash);
    out_no_app_reads:
    tl_cleanup(mdev);
    out_no_tl:
    drbd_bm_cleanup(mdev);
    out_no_bitmap:
    __free_page(mdev->md_io_page);
    out_no_io_page:
    put_disk(disk);
    out_no_disk:
    blk_cleanup_queue(q);
    out_no_q:
    free_cpumask_var(mdev->cpu_mask);
    out_no_cpumask:
    kfree(mdev);
    return NULL;
}

这个方法一个主要的作用是构造一个gendisk对象，并返回。让外层调用adddisk()完成块设备驱动的添加。在块设备驱动中比较重要的是块设备IO处理函数，DRBD定义了自己的块设备处理函数：drbd_make_request_26，块设备I/O队列处理函数的输入是bio，拿到一个bio后，会先分析该bio是否需要拆分：

/* to make some things easier, force alignment of requests within the
 * granularity of our hash tables */
s_enr = bio->bi_sector >> HT_SHIFT;
e_enr = (bio->bi_sector + (bio->bi_size >> 9) - 1) >> HT_SHIFT;

if (likely(s_enr == e_enr))
{
    dev_err(DEV, "drbd_make_request_26 2\n");
    inc_ap_bio(mdev, 1);
    return drbd_make_request_common(mdev, bio);
}

对于bio落在32个扇区以内的bio，直接当作一个普通的IO处理即可，走drbd_make_request_common方法，否则，需要对IO进行拆分，调试的时候发现所有的IO都在32扇区以内，并没有跨度超过这个值的bio。

在drbd_make_request_common中，会对IO进行本地的存盘，然后发送到对端。发送到对端的过程是想worker线程监听的任务队列中放入任务。由worker线程负责发送。

比较重要的两个方法：

__req_mod和drbd_make_request_common，把这两个方法弄清楚了，主节点的业务流程也就清晰了。

微信扫描，分享到朋友圈和群

(5.00分 - 9票)

10 条评论

suhuan

评论于七月 10, 2017 at 15:15:29 CST | 评论链接

请教一个问题，drbd如何获取到本来是发送给分区/dev/sdb1的bio了呢？是哪部份代码实现的。

回复
- 童燕群
  
  评论于七月 12, 2017 at 19:42:57 CST | 评论链接
  
  注册到内核的块设备驱动处理函数，在IO到来时会被回调。
  
  回复
yucr

评论于十一月 12, 2013 at 15:59:22 CST | 评论链接

active log记录最近写入的IO后，当主端接收到从端对某次IO的写入确认后，是怎么将该IO从active log中删除的呢？？？

回复
- 童燕群
  
  评论于八月 12, 2014 at 14:26:15 CST | 评论链接
  
  才发现你的这个问题没有回复过：）
  activelog 是循环写的。不会删除，当翻转后就自动覆盖了。可以看本系列的下一篇。
  
  回复
yucr

评论于十月 29, 2013 at 22:02:25 CST | 评论链接

看了几天源码和user guide，有几个问题不是很明确。active log是用来记录已经发送但还未收到对端确认的数据请求的么？bitmap是只有在断网的情况下才有用，并记录在断网期间已修改的数据块，其余情况下就没用了么？在设备驱动程序处理写操作时，貌似只是将数据请求发给对方，并进行本地io处理，并没有去向active log里记录此请求，是这样么？

回复
- shentar
  
  评论于十月 30, 2013 at 17:39:17 CST | 评论链接
  
  active log 是最近写下去的IO，所有最近写的IO都会被记录在这个log里头，“最近”的程度取决于active log的size大小，这个值是可配置的。
  
  在每次提交IO前会进行drbd_al_begin_io()操作，你查一下这个调用的调用点就知道了。失败时，会删除al。
  
  至于bitmap就不了解了，al是防止临时down后又恢复时数据同步的问题，具体的机制不了解，也是在看到你的评论后才看了一下代码，貌似你分析源码的进度比我快多了。
  
  回复
  - yucr
    
    评论于十月 31, 2013 at 22:15:27 CST | 评论链接
    
    今天下了个8.3.5版本的源码看了下，果然有drbd_al_begin_io()的明显调用，之后又回到我之前看的8.4.3版本，函数调用很不明显,感觉不同版本差别还是蛮大的~
    
    回复
yucr

评论于十月 23, 2013 at 00:19:08 CST | 评论链接

了解了，多谢楼主。。。坐等继续更新哈~~~

回复
yucr

评论于十月 21, 2013 at 23:11:12 CST | 评论链接

请问下asender线程主要功能是什么啊？？？

回复
- 童燕群
  
  评论于十月 22, 2013 at 19:29:47 CST | 评论链接
  
  用来处理元数据的。在receiver也即init线程中，会创建两个socket，一个用于传输数据一个用于传输元数据，元数据包括ack、ping心跳等消息。asender就是用来接收和发送此类消息的。从get_asender_cmd方法的定义可以看出整个asender线程的工作。
  
  回复

关于

关于本站简介
订阅本站文章列表
建站总结本站建站技术
关注微博
微信公众帐号
shentar
Search
我的项目
相关阅读
热度排行
1. [转] 宫崎骏用动漫教给我们的人生哲理，每一句都能说到心里！ - (日期:[八月 24, 2013] 点击:[53,587])
2. Google 网页爬虫报告无法连接站点解决办法 - (日期:[七月 20, 2014] 点击:[38,665])
3. 架设Tiny Tiny RSS（TTRSS）阅读器，找回Google Reader！ - (日期:[九月 27, 2013] 点击:[27,804])
4. SkyDrive、DropBox和Google Drive三大公有云存储服务对比 - (日期:[六月 25, 2013] 点击:[25,661])
5. 升级到至强E5440后，与i5 CPU笔记本性能对比 - (日期:[二月 18, 2014] 点击:[23,839])
6. 公钥私钥加密解密数字证书数字签名详解 - (日期:[四月 19, 2014] 点击:[22,976])
7. 本站建站技术合集 - (日期:[九月 20, 2013] 点击:[22,553])
8. 使用OpenerDNS解决无法访问Google的问题 - (日期:[七月 5, 2014] 点击:[21,853])
9. WordPress博客添加“返回顶部”按钮 - (日期:[七月 14, 2013] 点击:[21,270])
10. Linux文件系统基础之inode和dentry - (日期:[三月 13, 2015] 点击:[20,214])
11. 云存储中的HTTP鉴权算法分析 - (日期:[二月 7, 2014] 点击:[18,654])
12. 存储基础知识之——磁盘阵列原理及操作实战 - (日期:[二月 9, 2014] 点击:[17,540])
13. 精选37条强大的常用linux shell命令组合 - (日期:[九月 4, 2013] 点击:[17,468])
14. DNS原理、架构和配置详解 - (日期:[九月 6, 2013] 点击:[16,872])
15. Netty和Jetty的Java NIO 网络框架模型分析 - (日期:[七月 13, 2013] 点击:[16,349])
16. CoreOS 初识之安装 - (日期:[十一月 16, 2014] 点击:[16,217])
17. Windows与Linux文件系统互访的几种方法 - (日期:[八月 21, 2014] 点击:[15,738])
18. Dijkstra算法求解最短路径分析 - (日期:[七月 12, 2014] 点击:[14,942])
19. NAS解决方案实现多媒体文件共享播放 - (日期:[十二月 21, 2014] 点击:[13,966])
20. 简介 - (日期:[九月 1, 2012] 点击:[13,788])
21. 如何编程实现 2 + 2 = 5？ - (日期:[六月 2, 2014] 点击:[13,278])
22. 搭建了一个iNews程序 - (日期:[十月 15, 2013] 点击:[13,251])
23. 2014年9月曝出的Bash ShellShock漏洞简析 - (日期:[九月 26, 2014] 点击:[13,169])
24. 彻底解决WordPress博客垃圾评论的问题 - (日期:[八月 5, 2013] 点击:[13,160])
25. 如何使用1M的内存排序100万个8位数 - (日期:[三月 27, 2014] 点击:[12,570])
26. 全部日志列表 - (日期:[十一月 11, 2012] 点击:[12,424])
27. 关于回调函数和this指针探讨 - (日期:[八月 24, 2014] 点击:[12,245])
28. 开源好用的电子书管理服务Talebook（Calibre网络版）安装使用指南 - (日期:[四月 23, 2022] 点击:[11,829])
29. 给定一个long型常量，其值为x，给定long型变量a，要求a & x 的取值集合 - (日期:[九月 8, 2012] 点击:[11,735])
30. WordPress建站必备实用插件 - (日期:[八月 7, 2014] 点击:[11,388])
分类目录
- 生活札记
- 软件应用
- 软件技术
  - C/C++
  - IO编程
  - Java
    - Geronimo
    - Jetty
    - JMX
    - JNI技术
    - Netty
  - Linux内核
  - WEB网络
  - 多线程编程
  - 存储技术
    - 云计算/云存储
      - Amazon S3
      - Ceph
      - DRBD
      - Hadoop
      - Swift
    - 存储业界
  - 实用脚本
  - 建站技术
  - 数据库
  - 数码硬件
  - 架构设计
  - 移动互联
  - 算法数据结构
  - 编程基础
  - 语言基础
文章归档
- 2025年四月 (1)
- 2025年一月 (1)
- 2024年十二月 (1)
- 2024年四月 (1)
- 2024年二月 (1)
- 2023年九月 (1)
- 2023年一月 (1)
- 2022年十月 (1)
- 2022年八月 (2)
- 2022年四月 (1)
- 2022年三月 (1)
- 2021年十二月 (2)
- 2021年十月 (2)
- 2021年九月 (1)
- 2021年八月 (1)
- 2021年五月 (1)
- 2021年三月 (2)
- 2021年一月 (2)
- 2020年十二月 (5)
- 2020年十一月 (2)
- 2020年十月 (2)
- 2020年九月 (1)
- 2020年八月 (5)
- 2020年七月 (2)
- 2019年九月 (1)
- 2018年八月 (1)
- 2018年七月 (1)
- 2018年六月 (1)
- 2018年五月 (1)
- 2018年三月 (1)
- 2018年二月 (1)
- 2018年一月 (2)
- 2017年十二月 (3)
- 2017年十月 (4)
- 2017年九月 (1)
- 2017年七月 (1)
- 2017年六月 (1)
- 2016年十二月 (1)
- 2016年十月 (1)
- 2016年九月 (1)
- 2016年七月 (2)
- 2016年六月 (1)
- 2016年二月 (3)
- 2015年十二月 (3)
- 2015年十一月 (2)
- 2015年十月 (1)
- 2015年八月 (2)
- 2015年七月 (4)
- 2015年六月 (1)
- 2015年三月 (2)
- 2015年二月 (1)
- 2015年一月 (4)
- 2014年十二月 (2)
- 2014年十一月 (2)
- 2014年十月 (5)
- 2014年九月 (8)
- 2014年八月 (11)
- 2014年七月 (17)
- 2014年六月 (7)
- 2014年五月 (15)
- 2014年四月 (16)
- 2014年三月 (14)
- 2014年二月 (5)
- 2013年十二月 (5)
- 2013年十一月 (3)
- 2013年十月 (13)
- 2013年九月 (13)
- 2013年八月 (13)
- 2013年七月 (9)
- 2013年六月 (8)
- 2013年五月 (1)
- 2013年三月 (3)
- 2013年一月 (1)
- 2012年十一月 (1)
- 2012年九月 (12)
- 2012年八月 (3)
- 2011年二月 (1)
- 2009年三月 (1)
- 2009年二月 (1)
- 2008年十一月 (1)
- 2008年六月 (1)
- 2008年四月 (1)
- 2008年三月 (1)

RSS Links
- 最近50篇文章
- 最新评论
Meta
- 登录

DRBD源码分析（一）——内核模块初始化	DRBD源码分析（二）——内核模块网络配置和启动
DRBD远程实时双机热备系统配置完全手册	基于DRBD的高可用NFS解决方案分析
DRBD源码分析（四）——activelog

关于本站	简介
订阅本站	文章列表
建站总结	本站建站技术
关注微博	微信公众帐号 shentar

DRBD源码分析（三）——块设备驱动和IO队列处理函数

相关阅读：

10 条评论

评论

关于

Search

我的项目

相关阅读

热度排行

分类目录

文章归档

RSS Links

Meta