一道基础的词法解析题

作者：童燕群 | 发布日期：八月 24, 2013 | 阅读次数（4,093） | 评论 |

微信扫描，分享到朋友圈和群

原日志信息
标题：《计算单词数目的小程序-2009-05-24考试》
发布时间：5/24/2009
作者：童燕群

2009年，公司开始推行技能鉴定考试，这是我第一次参加的技能鉴定考试，那次考试最终以成绩不作为技术等级评定的依据收场。据说有的部门直接以金钱来奖励考分高者，在天涯论坛上面闹得沸沸扬扬。当年做这道题目时用完了所有考试时间，但是仍然没有调通，晚上回家后又接着奋战几个小时，重新写了这份代码。在现在看来，当时那个迫切想写代码的心情真的是难以理解。软件维护工作做多了，好像是会有这样的感觉。

直接贴代码，题目在代码头部的注释中。

/***************************************************************************/
/* 计算统计单词个数。 从命令行输入一个文件路径，程序读取文件内容，分析  */
/* 单词个数，并按照单词出现的频率从高到低逐个打印单词和出现的次数。        */
/* 规则：                                                                  */
/* 1、单词以三种符号区分“，”（英文的逗号）, “.”（英文的句点），            */
/*       “ ”（英文空格）；                                                      */
/* 2、注释以“{”（英文左大括号）开始，以“}”（英文右大括号）结束，           */
/*       允许注释嵌套，嵌套规则与C语言中的多行注释的嵌套                      */
/*       规则相同（允许跨行嵌套）。                                           */
/*    如果只有左括号，而一直没有有括号，那么所有内容都认为是注释；     */
/* 3、输出格式：每一行的格式为：“单词 出现次数”，从上倒下，              */
/*       出现次数最多的行排在最上方，对于出现次数相同的单词，                 */
/*       可不排序；                                                             */
/***************************************************************************/

/* 输入输出示例：                                                         

输入文件内容：
fdasfasfdasf.dasfdasfas,fdasfsdafdsafdsa {
fdafdsafaskdj }
fdasfkdsa jfasf{
{{
{{}}}}}}
dk dka, dfaks , fd a, . fd a. 
}}}
a aa a a 
d  d a fdas fdas fa sdf asf a fda sfas f asf asf a d af da ))) | { fda fdas  {

输出：
a 8
d 3
asf 3
fdas 2
fd 2
| 1
sfas 1
sdf 1
fdasfsdafdsafdsa 1
fdasfkdsa 1
fdasfasfdasf 1
fda 1
fa 1
f 1
dka 1
dk 1
dfaks 1
dasfdasfas 1
da 1
af 1
aa 1
))) 1

/************************************************************************/

#include <string>
#include <map>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <vector>
#include <algorithm>

using std::map;
using std::string;
using std::vector;

#define MAX_PATN 260
#define MAX_LEN_OF_ONE_LINE 1200

typedef map<string, int> WordMayType;
WordMayType WordMap;

void DealWithOneLine(char* LineBuffer, bool* HasCommentInTheEnd);
void DealWithTheLineWithNoComments(char* LineBuffer);
void WordMapOutPut();

int main(int argc, char** argv)
{
    if (argc != 2)
    {
        return 0;
    }
    bool HasCommentInTheEnd = false;
    char LineBuffer[MAX_LEN_OF_ONE_LINE] =
    {
        0
    };
    FILE* fpr = fopen(argv[1], "r");
    if (fpr == NULL)
    {
        return 0;
    }

    while (fgets(LineBuffer, MAX_LEN_OF_ONE_LINE, fpr) != NULL)
    {
        DealWithOneLine(LineBuffer, &HasCommentInTheEnd);
    }

    fclose(fpr);

    // 输出map表到屏幕
    WordMapOutPut();
    system("pause");
    return 0;
}

void DealWithOneLine(char* LineBuffer, bool* HasCommentInTheLastLineEnd)
{
    if (NULL == LineBuffer)
    {
        return;
    }
    string LineBufferString(LineBuffer);
    int nCommentBeginPos = (int) LineBufferString.find("{");
    int nCommentEndPos = (int) LineBufferString.find("}");
    if (nCommentEndPos == -1 &&
        nCommentBeginPos == -1 &&
        !*HasCommentInTheLastLineEnd)
    {
        // ,
        // ,
        //那么本行全部有效
        DealWithTheLineWithNoComments(LineBuffer);
        return;
    }
    else if (nCommentEndPos == -1 &&
        nCommentBeginPos == -1 &&
        *HasCommentInTheLastLineEnd)
    {
        //{,
        // ,
        //但本行没有任何注释符，那么退出，处理下一行。
        return;
    }
    else if (nCommentEndPos == -1 &&
        nCommentBeginPos != -1 &&
        !*HasCommentInTheLastLineEnd)
    {
        // ,
        //{,
        //需要分两段来处理
        //处理前半段
        LineBuffer[nCommentBeginPos] = '\0';
        DealWithTheLineWithNoComments(LineBuffer);
        //处理后半段
        *HasCommentInTheLastLineEnd = true;
        DealWithOneLine(LineBuffer + nCommentEndPos + 1,
            HasCommentInTheLastLineEnd);
    }
    else if (nCommentEndPos == -1 &&
        nCommentBeginPos != -1 &&
        *HasCommentInTheLastLineEnd)
    {
        //{,
        //{, 
        //只递归处理后半段。
        *HasCommentInTheLastLineEnd = true;
        DealWithOneLine(LineBuffer + nCommentBeginPos + 1,
            HasCommentInTheLastLineEnd);
    }
    else if (nCommentEndPos != -1 &&
        nCommentBeginPos == -1 &&
        !*HasCommentInTheLastLineEnd)
    {
        // ,
        //},
        //将饭括号去掉后继续递归处理
        *HasCommentInTheLastLineEnd = false;
        LineBuffer[nCommentEndPos] = ' ';
        DealWithOneLine(LineBuffer, HasCommentInTheLastLineEnd);
    }
    else if (nCommentEndPos != -1 &&
        nCommentBeginPos == -1 &&
        *HasCommentInTheLastLineEnd)
    {
        //{,
        //},
        //只处理后半段
        *HasCommentInTheLastLineEnd = false;
        DealWithOneLine(LineBuffer + nCommentEndPos + 1,
            HasCommentInTheLastLineEnd);
    }
    else if (nCommentEndPos != -1 &&
        nCommentBeginPos != -1 &&
        !*HasCommentInTheLastLineEnd)
    {
        // ,
        //但本行两个注释符都存在
        //则分两种情况
        if (nCommentBeginPos < nCommentEndPos)
        {
            // ,
            //{}
            //处理前半段
            LineBuffer[nCommentBeginPos] = '\0';
            DealWithTheLineWithNoComments(LineBuffer);
            //处理后半段
            *HasCommentInTheLastLineEnd = false;
            DealWithOneLine(LineBuffer + nCommentEndPos + 1,
                HasCommentInTheLastLineEnd);
        }
        else
        {
            // ,
            //}{,
            //去掉无效字符，递归处理
            LineBuffer[nCommentEndPos] = ' ';
            DealWithOneLine(LineBuffer, HasCommentInTheLastLineEnd);
        }
    }
    else if (nCommentEndPos != -1 &&
        nCommentBeginPos != -1 &&
        *HasCommentInTheLastLineEnd)
    {
        //{,
        //但本行两个注释符都存在
        //则分两种情况
        if (nCommentBeginPos < nCommentEndPos)
        {
            //{,
            //{}
            //处理后半段
            *HasCommentInTheLastLineEnd = false;
            DealWithOneLine(LineBuffer + nCommentEndPos + 1,
                HasCommentInTheLastLineEnd);
        }
        else
        {
            //{,
            //}{
            //只处理后半段
            *HasCommentInTheLastLineEnd = true;
            DealWithOneLine(LineBuffer + nCommentEndPos + 1,
                HasCommentInTheLastLineEnd);
        }
    }
}

void DealWithTheLineWithNoComments(char* LineBuffer)
{
    int nLen = strlen(LineBuffer);
    int nWordPosBegin = 0;
    int nWordPosEnd = 0;
    char cLetter = '\0';
    bool IsNewWordFlag = true;
    for (int i = 0; i != nLen; i++)
    {
        cLetter = LineBuffer[i];
        if ((cLetter != ' ') &&
            (cLetter != ',') &&
            (cLetter != 0xA) &&
            (cLetter != '.'))
        {
            if (IsNewWordFlag)
            {
                nWordPosBegin = i;
                IsNewWordFlag = false;
            }
        }
        else
        {
            if (!IsNewWordFlag)
            {
                nWordPosEnd = i;
                char WordTmp[MAX_LEN_OF_ONE_LINE] =
                {
                    0
                };
                strncpy(WordTmp, LineBuffer + nWordPosBegin,
                    nWordPosEnd - nWordPosBegin);
                WordMap[WordTmp]++;
            }
            IsNewWordFlag = true;
        }
    }
}

void WordMapOutPut()
{
    WordMayType::const_iterator map_it2, map_it;
    map_it2 = map_it = WordMap.begin();
    while (map_it != WordMap.end())
    {
        int nValueTmp = 0;
        for (; map_it != WordMap.end(); map_it++)
        {
            if (nValueTmp <= map_it->second)
            {
                nValueTmp = map_it->second;
                map_it2 = map_it;
            }
        }
        printf("%s %d\n", map_it2->first.c_str(), map_it2->second);
        WordMap.erase(map_it2->first.c_str());
        map_it2 = map_it = WordMap.begin();
    }
}

微信扫描，分享到朋友圈和群

|

1 分

2 分

3 分

4 分

5 分

(4.86分 - 7票)

Loading ... | 这篇文章归档在：C/C++, 算法数据结构, 职业发展 | 标签：技能提升, 词法解析题. | 永久链接：链接 | 评论（0） |

评论

关于

关于本站简介
订阅本站文章列表
建站总结本站建站技术
关注微博
微信公众帐号
shentar
站内搜索
我的项目
相关阅读
近期文章
分类目录
- 生活札记 (50)
  - 奇趣见闻 (11)
  - 文字网摘 (10)
  - 职业发展 (12)
  - 观影随想 (6)
- 软件应用 (15)
- 软件技术 (246)
  - C/C++ (24)
  - IO编程 (16)
  - Java (41)
    - Geronimo (2)
    - Jetty (10)
    - JMX (1)
    - JNI技术 (1)
    - Netty (1)
  - Linux内核 (6)
  - WEB网络 (42)
  - 多线程编程 (16)
  - 存储技术 (51)
    - 云计算/云存储 (41)
      - Amazon S3 (3)
      - Ceph (3)
      - DRBD (6)
      - Hadoop (3)
      - Swift (9)
    - 存储业界 (4)
  - 实用脚本 (21)
  - 建站技术 (22)
  - 数据库 (9)
  - 数码硬件 (28)
  - 架构设计 (29)
  - 移动互联 (51)
  - 算法数据结构 (34)
  - 编程基础 (5)
  - 语言基础 (24)
热度排行
1. [转] 宫崎骏用动漫教给我们的人生哲理，每一句都能说到心里！ - (日期:[八月 24, 2013] 点击:[52,552])
2. Google 网页爬虫报告无法连接站点解决办法 - (日期:[七月 20, 2014] 点击:[38,560])
3. 架设Tiny Tiny RSS（TTRSS）阅读器，找回Google Reader！ - (日期:[九月 27, 2013] 点击:[27,712])
4. SkyDrive、DropBox和Google Drive三大公有云存储服务对比 - (日期:[六月 25, 2013] 点击:[25,492])
5. 升级到至强E5440后，与i5 CPU笔记本性能对比 - (日期:[二月 18, 2014] 点击:[23,539])
6. 公钥私钥加密解密数字证书数字签名详解 - (日期:[四月 19, 2014] 点击:[22,940])
7. 本站建站技术合集 - (日期:[九月 20, 2013] 点击:[22,356])
8. 使用OpenerDNS解决无法访问Google的问题 - (日期:[七月 5, 2014] 点击:[21,668])
9. WordPress博客添加“返回顶部”按钮 - (日期:[七月 14, 2013] 点击:[21,143])
10. Linux文件系统基础之inode和dentry - (日期:[三月 13, 2015] 点击:[20,130])
11. 云存储中的HTTP鉴权算法分析 - (日期:[二月 7, 2014] 点击:[18,616])
12. 精选37条强大的常用linux shell命令组合 - (日期:[九月 4, 2013] 点击:[17,411])
13. 存储基础知识之——磁盘阵列原理及操作实战 - (日期:[二月 9, 2014] 点击:[17,353])
14. DNS原理、架构和配置详解 - (日期:[九月 6, 2013] 点击:[16,769])
15. Netty和Jetty的Java NIO 网络框架模型分析 - (日期:[七月 13, 2013] 点击:[16,317])
16. CoreOS 初识之安装 - (日期:[十一月 16, 2014] 点击:[16,121])
17. Windows与Linux文件系统互访的几种方法 - (日期:[八月 21, 2014] 点击:[15,700])
18. Dijkstra算法求解最短路径分析 - (日期:[七月 12, 2014] 点击:[14,912])
19. NAS解决方案实现多媒体文件共享播放 - (日期:[十二月 21, 2014] 点击:[13,814])
20. 简介 - (日期:[九月 1, 2012] 点击:[13,678])
21. 如何编程实现 2 + 2 = 5？ - (日期:[六月 2, 2014] 点击:[13,245])
22. 搭建了一个iNews程序 - (日期:[十月 15, 2013] 点击:[13,223])
23. 2014年9月曝出的Bash ShellShock漏洞简析 - (日期:[九月 26, 2014] 点击:[13,108])
24. 彻底解决WordPress博客垃圾评论的问题 - (日期:[八月 5, 2013] 点击:[13,056])
25. 如何使用1M的内存排序100万个8位数 - (日期:[三月 27, 2014] 点击:[12,541])
26. 全部日志列表 - (日期:[十一月 11, 2012] 点击:[12,237])
27. 关于回调函数和this指针探讨 - (日期:[八月 24, 2014] 点击:[12,176])
28. 给定一个long型常量，其值为x，给定long型变量a，要求a & x 的取值集合 - (日期:[九月 8, 2012] 点击:[11,681])
29. WordPress建站必备实用插件 - (日期:[八月 7, 2014] 点击:[11,321])
30. Amazon 云计算业务全面介绍 - (日期:[三月 9, 2014] 点击:[11,224])
归档
- 2024年二月 (1)
- 2023年九月 (1)
- 2023年一月 (1)
- 2022年十月 (1)
- 2022年八月 (2)
- 2022年四月 (1)
- 2022年三月 (1)
- 2021年十二月 (2)
- 2021年十月 (2)
- 2021年九月 (1)
- 2021年八月 (1)
- 2021年五月 (1)
- 2021年三月 (2)
- 2021年一月 (2)
- 2020年十二月 (5)
- 2020年十一月 (2)
- 2020年十月 (2)
- 2020年九月 (1)
- 2020年八月 (5)
- 2020年七月 (2)
- 2019年九月 (1)
- 2018年八月 (1)
- 2018年七月 (1)
- 2018年六月 (1)
- 2018年五月 (1)
- 2018年三月 (1)
- 2018年二月 (1)
- 2018年一月 (2)
- 2017年十二月 (3)
- 2017年十月 (4)
- 2017年九月 (1)
- 2017年七月 (1)
- 2017年六月 (1)
- 2016年十二月 (1)
- 2016年十月 (1)
- 2016年九月 (1)
- 2016年七月 (2)
- 2016年六月 (1)
- 2016年二月 (3)
- 2015年十二月 (3)
- 2015年十一月 (2)
- 2015年十月 (1)
- 2015年八月 (2)
- 2015年七月 (4)
- 2015年六月 (1)
- 2015年三月 (2)
- 2015年二月 (1)
- 2015年一月 (4)
- 2014年十二月 (2)
- 2014年十一月 (2)
- 2014年十月 (5)
- 2014年九月 (8)
- 2014年八月 (11)
- 2014年七月 (17)
- 2014年六月 (7)
- 2014年五月 (15)
- 2014年四月 (16)
- 2014年三月 (14)
- 2014年二月 (5)
- 2013年十二月 (5)
- 2013年十一月 (3)
- 2013年十月 (13)
- 2013年九月 (13)
- 2013年八月 (13)
- 2013年七月 (9)
- 2013年六月 (8)
- 2013年五月 (1)
- 2013年三月 (3)
- 2013年一月 (1)
- 2012年十一月 (1)
- 2012年九月 (12)
- 2012年八月 (3)
- 2011年二月 (1)
- 2009年三月 (1)
- 2009年二月 (1)
- 2008年十一月 (1)
- 2008年六月 (1)
- 2008年四月 (1)
- 2008年三月 (1)
内容聚合
- 最近50篇文章
- 最新评论

返回顶部