DRBD源码分析(三)——块设备驱动和IO队列处理函数
很长时间没有继续这个源码分析了,原因是到了主流业务,对底层的驱动知识不太了解,也没有太多时间。
在上一节中分析到
STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)
方法。在该方法中有一处调用:
mdev = ensure_mdev(nlp);
在这个调用中,会进行设备的注册和驱动的加载。这一节重点分析struct drbd_conf* drbd_new_device(unsigned int minor)方法。该方法主要是一个块设备的驱动。关于块设备的驱动程序的编写,可以参考CU上面的赵磊的帖子,该帖子绘声绘色的讲解了如何从0基础开始编写块设备驱动:链接。
对于每一个块设备,会进行一系列的初始化,会启动3个内核线程:
drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
drbd_thread_init(mdev, &mdev->worker, drbd_worker);
drbd_thread_init(mdev, &mdev->asender, drbd_asender);
其中drbd_init线程负责与对端建立连接,是接受进程也是初始化进程,所以该进程的一些命名有一些奇怪。在启动完这三个线程后,主线程继续注册块设备驱动。
struct drbd_conf* drbd_new_device(unsigned int minor)
{
struct drbd_conf* mdev;
struct gendisk* disk;
struct request_queue* q;
/* GFP_KERNEL, we are outside of all write-out paths */
mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
if (!mdev)
return NULL;
if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
goto out_no_cpumask;
mdev->minor = minor;
drbd_init_set_defaults(mdev);
q = blk_alloc_queue(GFP_KERNEL);
if (!q)
goto out_no_q;
mdev->rq_queue = q;
q->queuedata = mdev;
blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
disk = alloc_disk(1);
if (!disk)
goto out_no_disk;
mdev->vdisk = disk;
set_disk_ro(disk, TRUE);
disk->queue = q;
disk->major = DRBD_MAJOR;
disk->first_minor = minor;
disk->fops = &drbd_ops;
sprintf(disk->disk_name, "drbd%d", minor);
disk->private_data = mdev;
mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
/* we have no partitions. we contain only ourselves. */
mdev->this_bdev->bd_contains = mdev->this_bdev;
q->backing_dev_info.congested_fn = drbd_congested;
q->backing_dev_info.congested_data = mdev;
blk_queue_make_request(q, drbd_make_request_26);
blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
blk_queue_merge_bvec(q, drbd_merge_bvec);
q->queue_lock = &mdev->req_lock; /* needed since we use */
/* plugging on a queue, that actually has no requests! */
q->unplug_fn = drbd_unplug_fn;
mdev->md_io_page = alloc_page(GFP_KERNEL);
if (!mdev->md_io_page)
goto out_no_io_page;
if (drbd_bm_init(mdev))
goto out_no_bitmap;
/* no need to lock access, we are still initializing this minor device. */
if (!tl_init(mdev))
goto out_no_tl;
mdev->app_reads_hash = kzalloc(APP_R_HSIZE * sizeof(void *), GFP_KERNEL);
if (!mdev->app_reads_hash)
goto out_no_app_reads;
mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
if (!mdev->current_epoch)
goto out_no_epoch;
INIT_LIST_HEAD(&mdev->current_epoch->list);
mdev->epochs = 1;
return mdev;
/* out_whatever_else:
kfree(mdev->current_epoch); */
out_no_epoch:
kfree(mdev->app_reads_hash);
out_no_app_reads:
tl_cleanup(mdev);
out_no_tl:
drbd_bm_cleanup(mdev);
out_no_bitmap:
__free_page(mdev->md_io_page);
out_no_io_page:
put_disk(disk);
out_no_disk:
blk_cleanup_queue(q);
out_no_q:
free_cpumask_var(mdev->cpu_mask);
out_no_cpumask:
kfree(mdev);
return NULL;
}
这个方法一个主要的作用是构造一个gendisk对象,并返回。让外层调用adddisk()完成块设备驱动的添加。在块设备驱动中比较重要的是块设备IO处理函数,DRBD定义了自己的块设备处理函数:drbd_make_request_26,块设备I/O队列处理函数的输入是bio,拿到一个bio后,会先分析该bio是否需要拆分:
/* to make some things easier, force alignment of requests within the
* granularity of our hash tables */
s_enr = bio->bi_sector >> HT_SHIFT;
e_enr = (bio->bi_sector + (bio->bi_size >> 9) - 1) >> HT_SHIFT;
if (likely(s_enr == e_enr))
{
dev_err(DEV, "drbd_make_request_26 2\n");
inc_ap_bio(mdev, 1);
return drbd_make_request_common(mdev, bio);
}
对于bio落在32个扇区以内的bio,直接当作一个普通的IO处理即可,走drbd_make_request_common方法,否则,需要对IO进行拆分,调试的时候发现所有的IO都在32扇区以内,并没有跨度超过这个值的bio。
在drbd_make_request_common中,会对IO进行本地的存盘,然后发送到对端。发送到对端的过程是想worker线程监听的任务队列中放入任务。由worker线程负责发送。
比较重要的两个方法:
__req_mod和drbd_make_request_common,把这两个方法弄清楚了,主节点的业务流程也就清晰了。
10 条评论
请教一个问题,drbd如何获取到本来是发送给分区/dev/sdb1的bio了呢?是哪部份代码实现的。
注册到内核的块设备驱动处理函数,在IO到来时会被回调。
active log记录最近写入的IO后,当主端接收到从端对某次IO的写入确认后,是怎么将该IO从active log中删除的呢???
才发现你的这个问题没有回复过 :)
activelog 是循环写的。不会删除,当翻转后就自动覆盖了。可以看本系列的下一篇。
看了几天源码和user guide,有几个问题不是很明确。active log是用来记录已经发送但还未收到对端确认的数据请求的么?bitmap是只有在断网的情况下才有用,并记录在断网期间已修改的数据块,其余情况下就没用了么?在设备驱动程序处理写操作时,貌似只是将数据请求发给对方,并进行本地io处理,并没有去向active log里记录此请求,是这样么?
active log 是最近写下去的IO,所有最近写的IO都会被记录在这个log里头,“最近”的程度取决于active log的size大小,这个值是可配置的。
在每次提交IO前会进行drbd_al_begin_io()操作,你查一下这个调用的调用点就知道了。失败时,会删除al。
至于bitmap就不了解了,al是防止临时down后又恢复时数据同步的问题,具体的机制不了解,也是在看到你的评论后才看了一下代码,貌似你分析源码的进度比我快多了。
今天下了个8.3.5版本的源码看了下,果然有drbd_al_begin_io()的明显调用,之后又回到我之前看的8.4.3版本,函数调用很不明显,感觉不同版本差别还是蛮大的~
了解了,多谢楼主。。。坐等继续更新哈~~~
请问下asender线程主要功能是什么啊???
用来处理元数据的。在receiver也即init线程中,会创建两个socket,一个用于传输数据一个用于传输元数据,元数据包括ack、ping心跳等消息。asender就是用来接收和发送此类消息的。从get_asender_cmd方法的定义可以看出整个asender线程的工作。