关于
我的项目
相关阅读
热度排行
- [转] 宫崎骏用动漫教给我们的人生哲理,每一句都能说到心里! - (日期:[八月 24, 2013] 点击:[53,597])
- Google 网页爬虫报告无法连接站点解决办法 - (日期:[七月 20, 2014] 点击:[38,665])
- 架设Tiny Tiny RSS(TTRSS)阅读器,找回Google Reader! - (日期:[九月 27, 2013] 点击:[27,806])
- SkyDrive、DropBox和Google Drive三大公有云存储服务对比 - (日期:[六月 25, 2013] 点击:[25,666])
- 升级到至强E5440后,与i5 CPU笔记本性能对比 - (日期:[二月 18, 2014] 点击:[23,841])
- 公钥私钥加密解密数字证书数字签名详解 - (日期:[四月 19, 2014] 点击:[22,976])
- 本站建站技术合集 - (日期:[九月 20, 2013] 点击:[22,556])
- 使用OpenerDNS解决无法访问Google的问题 - (日期:[七月 5, 2014] 点击:[21,857])
- WordPress博客添加“返回顶部”按钮 - (日期:[七月 14, 2013] 点击:[21,276])
- Linux文件系统基础之inode和dentry - (日期:[三月 13, 2015] 点击:[20,218])
- 云存储中的HTTP鉴权算法分析 - (日期:[二月 7, 2014] 点击:[18,654])
- 存储基础知识之——磁盘阵列原理及操作实战 - (日期:[二月 9, 2014] 点击:[17,543])
- 精选37条强大的常用linux shell命令组合 - (日期:[九月 4, 2013] 点击:[17,469])
- DNS原理、架构和配置详解 - (日期:[九月 6, 2013] 点击:[16,875])
- Netty和Jetty的Java NIO 网络框架模型分析 - (日期:[七月 13, 2013] 点击:[16,350])
- CoreOS 初识之安装 - (日期:[十一月 16, 2014] 点击:[16,218])
- Windows与Linux文件系统互访的几种方法 - (日期:[八月 21, 2014] 点击:[15,739])
- Dijkstra算法求解最短路径分析 - (日期:[七月 12, 2014] 点击:[14,942])
- NAS解决方案实现多媒体文件共享播放 - (日期:[十二月 21, 2014] 点击:[13,967])
- 简介 - (日期:[九月 1, 2012] 点击:[13,788])
- 如何编程实现 2 + 2 = 5? - (日期:[六月 2, 2014] 点击:[13,278])
- 搭建了一个iNews程序 - (日期:[十月 15, 2013] 点击:[13,252])
- 2014年9月曝出的Bash ShellShock漏洞简析 - (日期:[九月 26, 2014] 点击:[13,170])
- 彻底解决WordPress博客垃圾评论的问题 - (日期:[八月 5, 2013] 点击:[13,163])
- 如何使用1M的内存排序100万个8位数 - (日期:[三月 27, 2014] 点击:[12,570])
- 全部日志列表 - (日期:[十一月 11, 2012] 点击:[12,425])
- 关于回调函数和this指针探讨 - (日期:[八月 24, 2014] 点击:[12,245])
- 开源好用的电子书管理服务Talebook(Calibre网络版)安装使用指南 - (日期:[四月 23, 2022] 点击:[11,841])
- 给定一个long型常量,其值为x,给定long型变量a,要求a & x 的取值集合 - (日期:[九月 8, 2012] 点击:[11,739])
- WordPress建站必备实用插件 - (日期:[八月 7, 2014] 点击:[11,388])
分类目录
文章归档
- 2025年四月 (3)
- 2025年一月 (1)
- 2024年十二月 (1)
- 2024年四月 (1)
- 2024年二月 (1)
- 2023年九月 (1)
- 2023年一月 (1)
- 2022年十月 (1)
- 2022年八月 (2)
- 2022年四月 (1)
- 2022年三月 (1)
- 2021年十二月 (2)
- 2021年十月 (2)
- 2021年九月 (1)
- 2021年八月 (1)
- 2021年五月 (1)
- 2021年三月 (2)
- 2021年一月 (2)
- 2020年十二月 (5)
- 2020年十一月 (2)
- 2020年十月 (2)
- 2020年九月 (1)
- 2020年八月 (5)
- 2020年七月 (2)
- 2019年九月 (1)
- 2018年八月 (1)
- 2018年七月 (1)
- 2018年六月 (1)
- 2018年五月 (1)
- 2018年三月 (1)
- 2018年二月 (1)
- 2018年一月 (2)
- 2017年十二月 (3)
- 2017年十月 (4)
- 2017年九月 (1)
- 2017年七月 (1)
- 2017年六月 (1)
- 2016年十二月 (1)
- 2016年十月 (1)
- 2016年九月 (1)
- 2016年七月 (2)
- 2016年六月 (1)
- 2016年二月 (3)
- 2015年十二月 (3)
- 2015年十一月 (2)
- 2015年十月 (1)
- 2015年八月 (2)
- 2015年七月 (4)
- 2015年六月 (1)
- 2015年三月 (2)
- 2015年二月 (1)
- 2015年一月 (4)
- 2014年十二月 (2)
- 2014年十一月 (2)
- 2014年十月 (5)
- 2014年九月 (8)
- 2014年八月 (11)
- 2014年七月 (17)
- 2014年六月 (7)
- 2014年五月 (15)
- 2014年四月 (16)
- 2014年三月 (14)
- 2014年二月 (5)
- 2013年十二月 (5)
- 2013年十一月 (3)
- 2013年十月 (13)
- 2013年九月 (13)
- 2013年八月 (13)
- 2013年七月 (9)
- 2013年六月 (8)
- 2013年五月 (1)
- 2013年三月 (3)
- 2013年一月 (1)
- 2012年十一月 (1)
- 2012年九月 (12)
- 2012年八月 (3)
- 2011年二月 (1)
- 2009年三月 (1)
- 2009年二月 (1)
- 2008年十一月 (1)
- 2008年六月 (1)
- 2008年四月 (1)
- 2008年三月 (1)
DRBD源码分析(三)——块设备驱动和IO队列处理函数
很长时间没有继续这个源码分析了,原因是到了主流业务,对底层的驱动知识不太了解,也没有太多时间。
在上一节中分析到
STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)
方法。在该方法中有一处调用:
mdev = ensure_mdev(nlp);
在这个调用中,会进行设备的注册和驱动的加载。这一节重点分析struct drbd_conf* drbd_new_device(unsigned int minor)方法。该方法主要是一个块设备的驱动。关于块设备的驱动程序的编写,可以参考CU上面的赵磊的帖子,该帖子绘声绘色的讲解了如何从0基础开始编写块设备驱动:链接。
对于每一个块设备,会进行一系列的初始化,会启动3个内核线程:
drbd_thread_init(mdev, &mdev->receiver, drbdd_init);
drbd_thread_init(mdev, &mdev->worker, drbd_worker);
drbd_thread_init(mdev, &mdev->asender, drbd_asender);
其中drbd_init线程负责与对端建立连接,是接受进程也是初始化进程,所以该进程的一些命名有一些奇怪。在启动完这三个线程后,主线程继续注册块设备驱动。
struct drbd_conf* drbd_new_device(unsigned int minor)
{
struct drbd_conf* mdev;
struct gendisk* disk;
struct request_queue* q;
/* GFP_KERNEL, we are outside of all write-out paths */
mdev = kzalloc(sizeof(struct drbd_conf), GFP_KERNEL);
if (!mdev)
return NULL;
if (!zalloc_cpumask_var(&mdev->cpu_mask, GFP_KERNEL))
goto out_no_cpumask;
mdev->minor = minor;
drbd_init_set_defaults(mdev);
q = blk_alloc_queue(GFP_KERNEL);
if (!q)
goto out_no_q;
mdev->rq_queue = q;
q->queuedata = mdev;
blk_queue_max_segment_size(q, DRBD_MAX_SEGMENT_SIZE);
disk = alloc_disk(1);
if (!disk)
goto out_no_disk;
mdev->vdisk = disk;
set_disk_ro(disk, TRUE);
disk->queue = q;
disk->major = DRBD_MAJOR;
disk->first_minor = minor;
disk->fops = &drbd_ops;
sprintf(disk->disk_name, "drbd%d", minor);
disk->private_data = mdev;
mdev->this_bdev = bdget(MKDEV(DRBD_MAJOR, minor));
/* we have no partitions. we contain only ourselves. */
mdev->this_bdev->bd_contains = mdev->this_bdev;
q->backing_dev_info.congested_fn = drbd_congested;
q->backing_dev_info.congested_data = mdev;
blk_queue_make_request(q, drbd_make_request_26);
blk_queue_bounce_limit(q, BLK_BOUNCE_ANY);
blk_queue_merge_bvec(q, drbd_merge_bvec);
q->queue_lock = &mdev->req_lock; /* needed since we use */
/* plugging on a queue, that actually has no requests! */
q->unplug_fn = drbd_unplug_fn;
mdev->md_io_page = alloc_page(GFP_KERNEL);
if (!mdev->md_io_page)
goto out_no_io_page;
if (drbd_bm_init(mdev))
goto out_no_bitmap;
/* no need to lock access, we are still initializing this minor device. */
if (!tl_init(mdev))
goto out_no_tl;
mdev->app_reads_hash = kzalloc(APP_R_HSIZE * sizeof(void *), GFP_KERNEL);
if (!mdev->app_reads_hash)
goto out_no_app_reads;
mdev->current_epoch = kzalloc(sizeof(struct drbd_epoch), GFP_KERNEL);
if (!mdev->current_epoch)
goto out_no_epoch;
INIT_LIST_HEAD(&mdev->current_epoch->list);
mdev->epochs = 1;
return mdev;
/* out_whatever_else:
kfree(mdev->current_epoch); */
out_no_epoch:
kfree(mdev->app_reads_hash);
out_no_app_reads:
tl_cleanup(mdev);
out_no_tl:
drbd_bm_cleanup(mdev);
out_no_bitmap:
__free_page(mdev->md_io_page);
out_no_io_page:
put_disk(disk);
out_no_disk:
blk_cleanup_queue(q);
out_no_q:
free_cpumask_var(mdev->cpu_mask);
out_no_cpumask:
kfree(mdev);
return NULL;
}
这个方法一个主要的作用是构造一个gendisk对象,并返回。让外层调用adddisk()完成块设备驱动的添加。在块设备驱动中比较重要的是块设备IO处理函数,DRBD定义了自己的块设备处理函数:drbd_make_request_26,块设备I/O队列处理函数的输入是bio,拿到一个bio后,会先分析该bio是否需要拆分:
/* to make some things easier, force alignment of requests within the
* granularity of our hash tables */
s_enr = bio->bi_sector >> HT_SHIFT;
e_enr = (bio->bi_sector + (bio->bi_size >> 9) - 1) >> HT_SHIFT;
if (likely(s_enr == e_enr))
{
dev_err(DEV, "drbd_make_request_26 2\n");
inc_ap_bio(mdev, 1);
return drbd_make_request_common(mdev, bio);
}
对于bio落在32个扇区以内的bio,直接当作一个普通的IO处理即可,走drbd_make_request_common方法,否则,需要对IO进行拆分,调试的时候发现所有的IO都在32扇区以内,并没有跨度超过这个值的bio。
在drbd_make_request_common中,会对IO进行本地的存盘,然后发送到对端。发送到对端的过程是想worker线程监听的任务队列中放入任务。由worker线程负责发送。
比较重要的两个方法:
__req_mod和drbd_make_request_common,把这两个方法弄清楚了,主节点的业务流程也就清晰了。
10 条评论
请教一个问题,drbd如何获取到本来是发送给分区/dev/sdb1的bio了呢?是哪部份代码实现的。
注册到内核的块设备驱动处理函数,在IO到来时会被回调。
active log记录最近写入的IO后,当主端接收到从端对某次IO的写入确认后,是怎么将该IO从active log中删除的呢???
才发现你的这个问题没有回复过 :)
activelog 是循环写的。不会删除,当翻转后就自动覆盖了。可以看本系列的下一篇。
看了几天源码和user guide,有几个问题不是很明确。active log是用来记录已经发送但还未收到对端确认的数据请求的么?bitmap是只有在断网的情况下才有用,并记录在断网期间已修改的数据块,其余情况下就没用了么?在设备驱动程序处理写操作时,貌似只是将数据请求发给对方,并进行本地io处理,并没有去向active log里记录此请求,是这样么?
active log 是最近写下去的IO,所有最近写的IO都会被记录在这个log里头,“最近”的程度取决于active log的size大小,这个值是可配置的。
在每次提交IO前会进行drbd_al_begin_io()操作,你查一下这个调用的调用点就知道了。失败时,会删除al。
至于bitmap就不了解了,al是防止临时down后又恢复时数据同步的问题,具体的机制不了解,也是在看到你的评论后才看了一下代码,貌似你分析源码的进度比我快多了。
今天下了个8.3.5版本的源码看了下,果然有drbd_al_begin_io()的明显调用,之后又回到我之前看的8.4.3版本,函数调用很不明显,感觉不同版本差别还是蛮大的~
了解了,多谢楼主。。。坐等继续更新哈~~~
请问下asender线程主要功能是什么啊???
用来处理元数据的。在receiver也即init线程中,会创建两个socket,一个用于传输数据一个用于传输元数据,元数据包括ack、ping心跳等消息。asender就是用来接收和发送此类消息的。从get_asender_cmd方法的定义可以看出整个asender线程的工作。