DRBD源码分析(三)——块设备驱动和IO队列处理函数

新浪微博 QQ空间

很长时间没有继续这个源码分析了,原因是到了主流业务,对底层的驱动知识不太了解,也没有太多时间。

在上一节中分析到

STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)

方法。在该方法中有一处调用:
mdev = ensure_mdev(nlp); 

在这个调用中,会进行设备的注册和驱动的加载。这一节重点分析struct drbd_conf* drbd_new_device(unsigned int minor)方法。该方法主要是一个块设备的驱动。关于块设备的驱动程序的编写,可以参考CU上面的赵磊的帖子,该帖子绘声绘色的讲解了如何从0基础开始编写块设备驱动:链接

对于每一个块设备,会进行一系列的初始化,会启动3个内核线程:

drbd_thread_init(mdev, &mdev->receiver, drbdd_init); 
drbd_thread_init(mdev, &mdev->worker, drbd_worker);
drbd_thread_init(mdev, &mdev->asender, drbd_asender);

其中drbd_init线程负责与对端建立连接,是接受进程也是初始化进程,所以该进程的一些命名有一些奇怪。在启动完这三个线程后,主线程继续注册块设备驱动。

struct drbd_conf* drbd_new_device(unsigned int minor)
{
struct drbd_conf* mdev;
struct gendisk* disk;
struct request_queue* q;

/* GFP_KERNEL, we are outside of all write-out paths */
mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
if (!mdev)
return NULL;
if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
goto out_no_cpumask;

mdev->minor = minor;

drbd_init_set_defaults(mdev);

q = blk_alloc_queue(GFP_KERNEL);
if (!q)
goto out_no_q;
mdev->rq_queue = q;
q->queuedata = mdev;
blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);

disk = alloc_disk(1);
if (!disk)
goto out_no_disk;
mdev->vdisk = disk;

set_disk_ro(disk, TRUE);

disk->queue = q;
disk->major = DRBD_MAJOR;
disk->first_minor = minor;
disk->fops = &drbd_ops;
sprintf(disk->disk_name, "drbd%d", minor);
disk->private_data = mdev;

mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
/* we have no partitions. we contain only ourselves. */
mdev->this_bdev->bd_contains = mdev->this_bdev;

q->backing_dev_info.congested_fn = drbd_congested;
q->backing_dev_info.congested_data = mdev;

blk_queue_make_request(q, drbd_make_request_26);
blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
blk_queue_merge_bvec(q, drbd_merge_bvec);
q->queue_lock = &mdev->req_lock; /* needed since we use */
/* plugging on a queue, that actually has no requests! */
q->unplug_fn = drbd_unplug_fn;

mdev->md_io_page = alloc_page(GFP_KERNEL);
if (!mdev->md_io_page)
goto out_no_io_page;

if (drbd_bm_init(mdev))
goto out_no_bitmap;
/* no need to lock access, we are still initializing this minor device. */
if (!tl_init(mdev))
goto out_no_tl;

mdev->app_reads_hash = kzalloc(APP_R_HSIZE * sizeof(void *), GFP_KERNEL);
if (!mdev->app_reads_hash)
goto out_no_app_reads;

mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
if (!mdev->current_epoch)
goto out_no_epoch;

INIT_LIST_HEAD(&mdev->current_epoch->list);
mdev->epochs = 1;

return mdev;

/* out_whatever_else:
kfree(mdev->current_epoch); */
out_no_epoch:
kfree(mdev->app_reads_hash);
out_no_app_reads:
tl_cleanup(mdev);
out_no_tl:
drbd_bm_cleanup(mdev);
out_no_bitmap:
__free_page(mdev->md_io_page);
out_no_io_page:
put_disk(disk);
out_no_disk:
blk_cleanup_queue(q);
out_no_q:
free_cpumask_var(mdev->cpu_mask);
out_no_cpumask:
kfree(mdev);
return NULL;
}

这个方法一个主要的作用是构造一个gendisk对象,并返回。让外层调用adddisk()完成块设备驱动的添加。在块设备驱动中比较重要的是块设备IO处理函数,DRBD定义了自己的块设备处理函数:drbd_make_request_26,块设备I/O队列处理函数的输入是bio,拿到一个bio后,会先分析该bio是否需要拆分:

/* to make some things easier, force alignment of requests within the
* granularity of our hash tables */
s_enr = bio->bi_sector >> HT_SHIFT;
e_enr = (bio->bi_sector + (bio->bi_size >> 9) - 1) >> HT_SHIFT;

if (likely(s_enr == e_enr))
{
dev_err(DEV, "drbd_make_request_26 2\n");
inc_ap_bio(mdev, 1);
return drbd_make_request_common(mdev, bio);
}
对于bio落在32个扇区以内的bio,直接当作一个普通的IO处理即可,走drbd_make_request_common方法,否则,需要对IO进行拆分,调试的时候发现所有的IO都在32扇区以内,并没有跨度超过这个值的bio。
在drbd_make_request_common中,会对IO进行本地的存盘,然后发送到对端。发送到对端的过程是想worker线程监听的任务队列中放入任务。由worker线程负责发送。
比较重要的两个方法:
__req_mod和drbd_make_request_common,把这两个方法弄清楚了,主节点的业务流程也就清晰了。

新浪微博 QQ空间

| 1 分2 分3 分4 分5 分 (5.00- 9票) Loading ... Loading ... | 这篇文章归档在:C/C++, DRBD | 标签: . | 永久链接:链接 | 评论(10) |

10 条评论

  1. suhuan
    评论于 七月 10, 2017 at 15:15:29 CST | 评论链接

    请教一个问题,drbd如何获取到本来是发送给分区/dev/sdb1的bio了呢?是哪部份代码实现的。

    • 评论于 七月 12, 2017 at 19:42:57 CST | 评论链接

      注册到内核的块设备驱动处理函数,在IO到来时会被回调。

  2. yucr
    评论于 十一月 12, 2013 at 15:59:22 CST | 评论链接

    active log记录最近写入的IO后,当主端接收到从端对某次IO的写入确认后,是怎么将该IO从active log中删除的呢???

    • 童燕群
      评论于 八月 12, 2014 at 14:26:15 CST | 评论链接

      才发现你的这个问题没有回复过 :)
      activelog 是循环写的。不会删除,当翻转后就自动覆盖了。可以看本系列的下一篇。

  3. yucr
    评论于 十月 29, 2013 at 22:02:25 CST | 评论链接

    看了几天源码和user guide,有几个问题不是很明确。active log是用来记录已经发送但还未收到对端确认的数据请求的么?bitmap是只有在断网的情况下才有用,并记录在断网期间已修改的数据块,其余情况下就没用了么?在设备驱动程序处理写操作时,貌似只是将数据请求发给对方,并进行本地io处理,并没有去向active log里记录此请求,是这样么?

    • shentar
      评论于 十月 30, 2013 at 17:39:17 CST | 评论链接

      active log 是最近写下去的IO,所有最近写的IO都会被记录在这个log里头,“最近”的程度取决于active log的size大小,这个值是可配置的。

      在每次提交IO前会进行drbd_al_begin_io()操作,你查一下这个调用的调用点就知道了。失败时,会删除al。

      至于bitmap就不了解了,al是防止临时down后又恢复时数据同步的问题,具体的机制不了解,也是在看到你的评论后才看了一下代码,貌似你分析源码的进度比我快多了。

      • yucr
        评论于 十月 31, 2013 at 22:15:27 CST | 评论链接

        今天下了个8.3.5版本的源码看了下,果然有drbd_al_begin_io()的明显调用,之后又回到我之前看的8.4.3版本,函数调用很不明显,感觉不同版本差别还是蛮大的~

  4. yucr
    评论于 十月 23, 2013 at 00:19:08 CST | 评论链接

    了解了,多谢楼主。。。坐等继续更新哈~~~

  5. yucr
    评论于 十月 21, 2013 at 23:11:12 CST | 评论链接

    请问下asender线程主要功能是什么啊???

    • 评论于 十月 22, 2013 at 19:29:47 CST | 评论链接

      用来处理元数据的。在receiver也即init线程中,会创建两个socket,一个用于传输数据一个用于传输元数据,元数据包括ack、ping心跳等消息。asender就是用来接收和发送此类消息的。从get_asender_cmd方法的定义可以看出整个asender线程的工作。

评论

邮箱地址不会被泄露, 标记为 * 的项目必填。

8 - 2 = *



You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <img alt="" src="" class=""> <pre class=""> <q cite=""> <s> <strike> <strong>

返回顶部