分类目录：云计算/云存储

Swift 和 Keystone单机安装总结
Openstack 云计算环境搭建手册（英文第二版）
Amazon 云计算业务全面介绍
基于DRBD的高可用NFS解决方案分析
[转] 分布式存储系统(GlusterFS, Swift, Cassandra)设计对比
云存储中的HTTP鉴权算法分析
Openstack Swift简介
DRBD源码分析（三）——块设备驱动和IO队列处理函数
DRBD源码分析（二）——内核模块网络配置和启动
DRBD源码分析（一）——内核模块初始化

Swift 和 Keystone单机安装总结

作者：童燕群 | 发布日期：三月 22, 2014 | 阅读次数（7,667） | 评论

一般网上搜索到的资料都是介绍整个Openstack的安装过程的，通常都是长篇累牍，非常复杂。因为个人的虚拟机环境，没有太高调配置，不可能完整运行Openstack的各种服务，只想体验一下Swift，于是试着只安装Swift和Keystone。对于Openstack支持最好的也就算是Ubuntu发行版了，甚至在较新的13.0版以上都直接集成了。

因为只安装单机版本的Swift和Keystone，因此不需要双网卡，所有业务和控制都走一个网络即可。网络规划简单。

阅读全文 »

(4.67分 - 12票)

Loading ... | 同时归档在：Swift, 存储技术 | 标签： Keystone, Openstack Swift, Swift单机环境搭建 |

Openstack 云计算环境搭建手册（英文第二版）

作者：童燕群 | 发布日期：三月 19, 2014 | 阅读次数（5,772） | 评论

花了几天的下班时间，终于找到了这个手册，并且成功搭建了Openstack Swift的单机运行环境。下一篇发环境搭建详细过程，这里首先把手册贴出来。

下载链接： OpenStack Cloud Computing Cookbook – Second Edition [eBook]

(4.43分 - 7票)

Loading ... | 同时归档在：存储技术 | 标签： Openstack Swift, Openstack环境搭建手册 |

Amazon 云计算业务全面介绍

作者：童燕群 | 发布日期：三月 9, 2014 | 阅读次数（11,286） | 评论（2）

亚马逊云计算业务全面详细介绍

(4.14分 - 7票)

Loading ... | 同时归档在：存储业界 | 标签： Amazon, AWS S3, EC2, S3, SDB, Simple Storage Service, SQS |

基于DRBD的高可用NFS解决方案分析

作者：童燕群 | 发布日期：三月 5, 2014 | 阅读次数（8,827） | 评论

之前对DRBD分析比较多，但是一直没有找到该怎么用他。最近又在看NFS协议（RFC3530）。分析了NFS4对于的迁移、复制和服务端重启等场景的定义。DRBD提供块设备，其上是文件系统，而NFS在文件系统上层，二者结合可以构建一个高可用的文件共享解决方案。关于DRBD，在之前的博客中有一些分析（tag：DRBD）。对于NFS，从如下示意图可以看出其在系统中的位置：

传统的DAS存储模型：主机直接连接存储设备，使用总线接口进行访问。

阅读全文 »

(4.55分 - 11票)

Loading ... | 同时归档在：DRBD | 标签： drbd, NFS4, 高可用NFS双机 |

[转] 分布式存储系统(GlusterFS, Swift, Cassandra)设计对比

作者：童燕群 | 发布日期：二月 12, 2014 | 阅读次数（5,791） | 评论

之前转过一篇分布式文件系统比较的文章，几大分布式文件系统全方位比较，这里再从存储的角度转一个。应该说者三个开源软件各自侧重的领域不一样，但是都具备分布式存储的特征，因此这篇文章主要是从存储的角度来进行对比。

阅读全文 »

(5.00分 - 8票)

Loading ... | 同时归档在：Swift, 存储技术, 软件技术 | 标签： Cassandra, GlusterFS, Openstack Swift, 分布式存储, 分布式文件系统 |

云存储中的HTTP鉴权算法分析

作者：童燕群 | 发布日期：二月 7, 2014 | 阅读次数（18,654） | 评论（9）

基于Base64编码的HTTP Basic Authentication由于安全问题，已经不再广泛使用了。在云存储中，数据的安全性一直被广泛关注。亚马逊的AWS S3和Openstack Swift分别采取了不同的算法来对每一个HTTP请求进行鉴权。这里想对二者的鉴权过程作简单分析和总结。

一、AWS S3的HTTP请求鉴权流程

阅读全文 »

(5.00分 - 9票)

Loading ... | 同时归档在：Amazon S3, Swift, 存储技术, 算法数据结构 | 标签： AWS S3, HTTP Basic Authentication, HTTP鉴权, Keystone, Openstack Swift, S3, SHA256, 对象存储 |

Openstack Swift简介

作者：童燕群 | 发布日期：十二月 8, 2013 | 阅读次数（9,176） | 评论

背景与概览

Swift 最初是由 Rackspace 公司开发的高可用分布式对象存储服务，并于 2010 年贡献给 OpenStack 开源社区作为其最初的核心子项目之一，为其 Nova 子项目提供虚机镜像存储服务。Swift 构筑在比较便宜的标准硬件存储基础设施之上，无需采用 RAID（磁盘冗余阵列），通过在软件层面引入一致性散列技术和数据冗余性，牺牲一定程度的数据一致性来达到高可用性和可伸缩性，支持多租户模式、容器和对象读写操作，适合解决互联网的应用场景下非结构化数据存储问题。

此项目是基于 Python 开发的，采用 Apache 2.0 许可协议，可用来开发商用系统。

阅读全文 »

(5.00分 - 7票)

Loading ... | 同时归档在：Swift, 存储技术 | 标签： Openstack Swift, REST API, 一致性hash技术, 对象存储 |

DRBD源码分析（三）——块设备驱动和IO队列处理函数

作者：童燕群 | 发布日期：十月 12, 2013 | 阅读次数（10,986） | 评论（10）

很长时间没有继续这个源码分析了，原因是到了主流业务，对底层的驱动知识不太了解，也没有太多时间。

在上一节中分析到

STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)

方法。在该方法中有一处调用：

mdev = ensure_mdev(nlp);

在这个调用中，会进行设备的注册和驱动的加载。这一节重点分析struct drbd_conf* drbd_new_device(unsigned int minor)方法。该方法主要是一个块设备的驱动。关于块设备的驱动程序的编写，可以参考CU上面的赵磊的帖子，该帖子绘声绘色的讲解了如何从0基础开始编写块设备驱动：链接。

对于每一个块设备，会进行一系列的初始化，会启动3个内核线程：

drbd_thread_init(mdev, &mdev->receiver, drbdd_init); 
drbd_thread_init(mdev, &mdev->worker, drbd_worker); 
drbd_thread_init(mdev, &mdev->asender, drbd_asender);

阅读全文 »

(5.00分 - 9票)

Loading ... | 同时归档在：C/C++, DRBD | 标签： drbd |

DRBD源码分析（二）——内核模块网络配置和启动

作者：童燕群 | 发布日期：八月 10, 2013 | 阅读次数（7,924） | 评论（3）

在上一篇里面分析到了基于netlink的connector，connector正是内核态与用户态配置命令交互的通道。用户通过调用用户态的工具，发送相应的命令参数，用户态工具将命令参数转换成相应的消息包，内核态解析消息后得到相应的指令，继续转换成函数调用，最后得以执行。

首先仔细看一下上一节提到的创建connector时注册的收数据的回调函数：

#ifdef KERNEL_HAS_CN_SKB_PARMS
STATIC void drbd_connector_callback(struct cn_msg *req, struct netlink_skb_parms *nsp)
{
#else
STATIC void drbd_connector_callback(void *data)
{
    struct cn_msg *req = data;
#endif
    struct drbd_nl_cfg_req *nlp = (struct drbd_nl_cfg_req *)req->data;
    struct cn_handler_struct *cm;
    struct cn_msg *cn_reply;
    struct drbd_nl_cfg_reply *reply;
    struct drbd_conf *mdev;
    int retcode, rr;
    int reply_size = sizeof(struct cn_msg)
        + sizeof(struct drbd_nl_cfg_reply)
        + sizeof(short int);

    if (!try_module_get(THIS_MODULE)) {
        printk(KERN_ERR "drbd: try_module_get() failed!\n");
        return;
    }

#ifdef KERNEL_HAS_CN_SKB_PARMS
    if (!cap_raised(nsp->eff_cap, CAP_SYS_ADMIN)) {
        retcode = ERR_PERM;
        goto fail;
    }
#endif

    mdev = ensure_mdev(nlp);
    if (!mdev) {
        retcode = ERR_MINOR_INVALID;
        goto fail;
    }

    trace_drbd_netlink(req, 1);

    if (nlp->packet_type >= P_nl_after_last_packet) {
        retcode = ERR_PACKET_NR;
        goto fail;
    }
    printk("packet_type is %d\n", nlp->packet_type);
    cm = cnd_table + nlp->packet_type;

    /* This may happen if packet number is 0: */
    if (cm->function == NULL) {
        retcode = ERR_PACKET_NR;
        goto fail;
    }

    reply_size += cm->reply_body_size;

    /* allocation not in the IO path, cqueue thread context */
    cn_reply = kmalloc(reply_size, GFP_KERNEL);
    if (!cn_reply) {
        retcode = ERR_NOMEM;
        goto fail;
    }
    reply = (struct drbd_nl_cfg_reply *) cn_reply->data;

    reply->packet_type =
        cm->reply_body_size ? nlp->packet_type : P_nl_after_last_packet;
    reply->minor = nlp->drbd_minor;
    reply->ret_code = NO_ERROR; /* Might by modified by cm->function. */
    /* reply->tag_list; might be modified by cm->function. */

    rr = cm->function(mdev, nlp, reply);

    cn_reply->id = req->id;
    cn_reply->seq = req->seq;
    cn_reply->ack = req->ack  + 1;
    cn_reply->len = sizeof(struct drbd_nl_cfg_reply) + rr;
    cn_reply->flags = 0;

    trace_drbd_netlink(cn_reply, 0);
    rr = cn_netlink_send(cn_reply, CN_IDX_DRBD, GFP_KERNEL);
    if (rr && rr != -ESRCH)
        printk(KERN_INFO "drbd: cn_netlink_send()=%d\n", rr);

    kfree(cn_reply);
    module_put(THIS_MODULE);
    return;
 fail:
    drbd_nl_send_reply(req, retcode);
    module_put(THIS_MODULE);
}

值得注意的是：

rr=cm->function(mdev,nlp,reply);

这一句，这里相当于是一个多态，function绑定到哪一个方法由消息包中携带的包类型决定：


cm=cnd_table+nlp->packet_type;

系统在初始化时级生成了一个全局的静态函数表，类似P_primary的标识符是在编译时动态生成的宏。表示其所在的元素的下标，同时也月包类型相对应。

static struct cn_handler_struct cnd_table[] = {
    [ P_primary ]        = { &drbd_nl_primary,        0 },
    [ P_secondary ]        = { &drbd_nl_secondary,        0 },
    [ P_disk_conf ]        = { &drbd_nl_disk_conf,        0 },
    [ P_detach ]        = { &drbd_nl_detach,        0 },
    [ P_net_conf ]        = { &drbd_nl_net_conf,        0 },
    [ P_disconnect ]    = { &drbd_nl_disconnect,    0 },
    [ P_resize ]        = { &drbd_nl_resize,        0 },
    [ P_syncer_conf ]    = { &drbd_nl_syncer_conf,    0 },
    [ P_invalidate ]    = { &drbd_nl_invalidate,    0 },
    [ P_invalidate_peer ]    = { &drbd_nl_invalidate_peer,    0 },
    [ P_pause_sync ]    = { &drbd_nl_pause_sync,    0 },
    [ P_resume_sync ]    = { &drbd_nl_resume_sync,    0 },
    [ P_suspend_io ]    = { &drbd_nl_suspend_io,    0 },
    [ P_resume_io ]        = { &drbd_nl_resume_io,        0 },
    [ P_outdate ]        = { &drbd_nl_outdate,        0 },
    [ P_get_config ]    = { &drbd_nl_get_config,
                    sizeof(struct syncer_conf_tag_len_struct) +
                    sizeof(struct disk_conf_tag_len_struct) +
                    sizeof(struct net_conf_tag_len_struct) },
    [ P_get_state ]        = { &drbd_nl_get_state,
                    sizeof(struct get_state_tag_len_struct) +
                    sizeof(struct sync_progress_tag_len_struct)    },
    [ P_get_uuids ]        = { &drbd_nl_get_uuids,
                    sizeof(struct get_uuids_tag_len_struct) },
    [ P_get_timeout_flag ]    = { &drbd_nl_get_timeout_flag,
                    sizeof(struct get_timeout_flag_tag_len_struct)},
    [ P_start_ov ]        = { &drbd_nl_start_ov,        0 },
    [ P_new_c_uuid ]    = { &drbd_nl_new_c_uuid,    0 },
};

比如，在一次完整的用户态与内核态的交互中，用户态会多次发出P_get_state消息，该消息的包类型码为17。

类似cn_handler_struct这样的函数表，在drbd的代码中随处可见，无论是内核态还是用户态，这样一致的风格，应该非常利于扩展和维护。看代码的人也会觉得非常轻松，不至于无章可循。

DRBD的配置信息、虚拟设备、网络通信端口、对端信息等都是通过drbdsetup或者drbdadm工具以netlink消息包发送到内核态的。

在收到5号消息包时，drbd_nl_net_conf会被调用。在该函数中，会启动worker内核线程，该线程监控一个等待队列，当有事件到来时，即取出处理：

int drbd_worker(struct drbd_thread* thi)
{
...
        w = NULL;
        spin_lock_irq(&mdev->data.work.q_lock);
        ERR_IF(list_empty(&mdev->data.work.q))
        {
            /* something terribly wrong in our logic.
                     * we were able to down() the semaphore,
                     * but the list is empty... doh.
                     *
                     * what is the best thing to do now?
                     * try again from scratch, restarting the receiver,
                     * asender, whatnot? could break even more ugly,
                     * e.g. when we are primary, but no good local data.
                     *
                     * I'll try to get away just starting over this loop.
                     */
            spin_unlock_irq(&mdev->data.work.q_lock);
            continue;
        }
        w = list_entry(mdev->data.work.q.next, struct drbd_work, list);
        list_del_init(&w->list);
        spin_unlock_irq(&mdev->data.work.q_lock);

        if (!w->cb(mdev, w, mdev->state.conn < C_CONNECTED))
        {
            /* dev_warn(DEV, "worker: a callback failed! \n"); */
            if (mdev->state.conn >= C_CONNECTED)
                drbd_force_state(mdev, NS(conn, C_NETWORK_FAILURE));
        }
...
}

启动了worker线程之后，几乎所有的内核态的事务都会交给这个线程来处理。

继续回到drbd_nl_net_conf方法中，在初始化完worker线程后，会继续执行如下语句：

retcode=_drbd_request_state(mdev,NS(conn,C_UNCONNECTED),CS_VERBOSE);

这里既是与对端协商确定当前谁是主节点。在该方法中会向等待队列中放入一个事务，该事务为启动一个receiver线程，receiver线程会使用配置文件中指定的端口和IP信息建立tcp socket监听，等待对端的链接。此时，如果对端一直未有连接过来，本端尝试与对端连接也一直无法建立，则会根据配置等待指定的超时时间，之后会将本段置为Standalone状态。这也就是我们常见的两台服务器同时重启时，会发现一端的启动过程卡在drbd的等待上面。

(4.83分 - 6票)

Loading ... | 同时归档在：C/C++, DRBD | 标签： drbd |

DRBD源码分析（一）——内核模块初始化

作者：童燕群 | 发布日期：七月 21, 2013 | 阅读次数（9,211） | 评论

本地安装的是drbd-8.3.5版本，下载相应的源码包。两个子目录涉及源代码，其中drbd目录为内核态的源码，user目录为用户态工具的源码。所有的业务都是在内核态完成，用户态只是提供工具安装、配置、维护内核模块的工作。

drbd架构图，在官方网站的主页上面就能看到，非常显眼，这是内核态的架构示意图：

可以很清晰的看到，drbd在文件系统之下，直接操纵物理磁盘（块设备），在网络模型中，基于传输层之上建立虚拟设备。通过TCP/IP协议与远端设备交互。

drbd内核模块的名字为：

[root@Shentar /opt/drbd-8.3.5]# modprobe -all|grep drbd
/lib/modules/2.6.25-14.fc9.i686/kernel/drivers/block/drbd.ko
[root@Shentar /opt/drbd-8.3.5]#

首先找代码的入口，内核模块的初始化定义：module_init宏定义。在drbd_main.c文件中。


module_init(drbd_init)
module_exit(drbd_cleanup)

下面贴出初始化函数：drbd_init(void)：

整个初始化分如下几个步骤：

int __init drbd_init(void)
{
    int err;

    if (sizeof(struct p_handshake) != 80)
    {
        printk(KERN_ERR
               "drbd: never change the size or layout "
               "of the HandShake packet.\n");
        return -EINVAL;
    }

    if (1 > minor_count || minor_count > 255)
    {
        printk(KERN_ERR
            "drbd: invalid minor_count (%d)\n", minor_count);
#ifdef MODULE
        return -EINVAL;
#else
        minor_count = 8;
#endif
    }

    err = drbd_nl_init();
    if (err)
        return err;

    err = register_blkdev(DRBD_MAJOR, "drbd");
    if (err)
    {
        printk(KERN_ERR
               "drbd: unable to register block device major %d\n", DRBD_MAJOR);
        return err;
    }

    register_reboot_notifier(&drbd_notifier);

    /*
     * allocate all necessary structs
     */
    err = -ENOMEM;

    init_waitqueue_head(&drbd_pp_wait);

    drbd_proc = NULL; /* play safe for drbd_cleanup */
    minor_table = kzalloc(sizeof(struct drbd_conf *) * minor_count, GFP_KERNEL);
    if (!minor_table)
        goto Enomem;

    err = drbd_create_mempools();
    if (err)
        goto Enomem;

    drbd_proc = proc_create("drbd", S_IFREG | S_IRUGO, NULL, &drbd_proc_fops);
    if (!drbd_proc)
    {
        printk(KERN_ERR "drbd: unable to register proc file\n");
        goto Enomem;
    }

    rwlock_init(&global_state_lock);

    printk(KERN_INFO "drbd: initialized. "
                     "Version: " REL_VERSION " (api:%d/proto:%d-%d)\n",
        API_VERSION, PRO_VERSION_MIN, PRO_VERSION_MAX);
    printk(KERN_INFO "drbd: %s\n", drbd_buildtag());
    printk(KERN_INFO "drbd: registered as block device major %d\n", DRBD_MAJOR);
    printk(KERN_INFO "drbd: minor_table @ 0x%p\n", minor_table);

    return 0; /* Success! */

    Enomem : drbd_cleanup();
    if (err == -ENOMEM)
            /* currently always the case */
        printk(KERN_ERR "drbd: ran out of memory\n");
    else
        printk(KERN_ERR "drbd: initialization failure\n");
    return err;
}

1、drbd_nl_init方法

初始化网络，在内核2.6.16之前的版本中，还没有内核连接器的封装，还是直接调用原始的netlink套接字，因此初始化时需要有一系列的初始化netlink的动作。新的内核版本中集成了connector的封装，相对来说网络初始化的过程就简单多了。在分析代码时，需要注意，drbd目录下也有一个connector.c，这是为老版本准备的。新版本中根本没有编译该文件，因此只需要知道cn_add_callback这个接口的作用，而不需要去看connector.c中该函数的定义。昨天误分析到connector.c中去了，发现cn_add_callback函数最终结束时会往自己生成的任务队列中注册一个任务，但是怎么也找不到之后谁来等待执行该任务，试图加日志查看该函数流程时，才发现原来并没有运行到该代码。这才发现上述connector封装的问题。

关于连接器，这里简要说明一下，连接器封装了内核态和用户态的通讯过程。提供了简单的几个接口：

int cn_add_callback(struct cb_id*, char*, void (*callback) (void*));
void cn_del_callback(struct cb_id*);
int cn_netlink_send(struct cn_msg*, u32, gfp_t);

int cn_queue_add_callback(struct cn_queue_dev* dev, char* name,
    struct cb_id* id, void (*callback) (void*));
void cn_queue_del_callback(struct cn_queue_dev* dev, struct cb_id* id);

struct cn_queue_dev* cn_queue_alloc_dev(char* name, struct sock*);
void cn_queue_free_dev(struct cn_queue_dev* dev);

int cn_cb_equal(struct cb_id*, struct cb_id*);

void cn_queue_wrapper(void* data);

这里只分析cn_add_callback和cn_netlink_send两个，在内核创建连接器时，需要调用cn_add_callback方法，其中callback函数指针参数指定了连接器接收到数据时的回调函数，数据到达时将由该函数来处理。连接器既可以用于接收数据也可以用于发送数据。接收数据使用回调来处理。发送数据直接使用cn_netlink_send方法即可。该方法支持单播、广播和组播。一般单播和广播会用到。cn_add_callback方法无误返回，也就意味着网络初始化好了，比起之前版本中的复杂创建、绑定和监听套接字等流程简单多了。

2、register_blkdev方法

这个方法是内核系统调用，用于注册一个块设备，需要指定主设备号，如果指定的设备号为0，则会由系统自动分配一个。该方法调用之后，就可以在/proc/devices文件中看到drbd块设备。drbd设备的设备号在代码中写死，为147。需要注意的是，如果块设备号已被占用，会导致注册失败。

见左图。

3、register_reboot_notifier注册块设备重启时的回调函数

目前注册了一个空函数，委婉的说以后会实现，其实没有任何需要做的事情：

4、init_waitqueue_head初始化一个等待队列

等待队列可以是生产者和消费者之间的共享队列，后面的业务分析中应该会遇到该结构，到时会仔细分析该队列中所存放的内容。应该与具体的读写数据业务有关。

5、drbd_create_mempools创建内存池

这块还没有仔细分析，drbd中需要使用的内存池特别多，数据块的，接收缓冲区的，发送缓冲区的。

6、proc_create创建/proc/drbd文件

内核允许模块在/proc目录下创建自己的虚拟文件和虚拟文件夹。并且指定该文件的操作回调函数。其中，drbd指定了open, read, write和close方法的回调函数即/proc/drbd的四个回调函数：

struct file_operations drbd_proc_fops =
{
    .owner = THIS_MODULE, .open = drbd_proc_open, .read = seq_read,
    .llseek = seq_lseek, .release = single_release, 
};

在打开该文件时，内核会调用drbd_proc_open函数来呈现相应的内容。也可以说这里是drbd内核服务向用户态反馈信息的一个通道。所有用户态的工具也是基于这个来判断当前drbd的状态。

7、rwlock_init初始化全局读写锁。

整个内核模块的初始化到这里就结束了，总结一下，主要涉及下面几个系统调用：cn_add_callback，cn_netlink_send，register_blkdev，register_reboot_notifier，init_waitqueue_head，mempool_create，create_proc_entry。随着linux 内核的不断壮大，驱动编程似乎也在越来越简单。

(4.90分 - 10票)

Loading ... | 同时归档在：C/C++, DRBD | 标签： drbd |