个人资料
姓 名:郑伟华 学 位:博士
出 生:1969.09.20 专 业:计算机科学与技术
性 别:男
民 族:汉
籍 贯:湖南邵东
研究简介
本人是湖南大学信息科学与工程学院在读博士(2011.9-2015.6),计算机科学与技术方向,主要的研究方向有快速傅立叶变换、卷积计算、内存和寄存器访问优化等。
我目前的成果如下:
1、快速傅立叶变换的研究
从减少计算复杂度的方面出发,我提出了4类8个 FFT 算法。特别是 (1)针对 2 的幕次方长度的傅立叶变换,我们提出的 FFT 是计算复杂最低的,发表在 IEEE Transactions on Signal Processing上; (2)针对目前计算速度最快的多序列比对算法 MAFFT 所存在的问题,提出了改进算法,得到了 MAFFT 的提出者的大力推荐,该成果发表在 IEEE/ACM Transactions on Computational Biology and Bioinformatics杂志上。
2、三角函数级数的计算
目前三角函数级数的计算都是采用 FFT 来计算的,通常一个正弦或余弦级数需要两个傅立叶级数组合,用一个非标准的 FFT 算法来实现。针对这种情况,我提出了直接对正弦级数和余弦级数进行分解计算的方式。该方法可将一个正弦级数分解成一个1/2长度的正弦级数和一个1/4长度的离散正弦-II型级数;该方法可将一个余弦级数分解成一个1/2长度的余弦级数和一个1/4长度的离散余弦-II型级数。所提方法计算复杂度等于 FFT 的一半。
3、卷积计算
卷积和傅立叶变换是相辅相成的,FFT 可以快速计算卷积,卷积的计算促进了 FFT 算法的发展。
从卷积计算的特点出发,我们提出一种卷积分解计算的方法。在分解的过程中,可以不完全的遵照 FFT 的规则,由此达到减少计算复杂度的目的。比如:针对二个长度为 12 点信号的循环卷积,不考虑其它因素,采用我的方法可以减少36%的计算复杂度;如果不考虑非2的幕次长度的影响,即和将目前2的幕次方长度卷积计算复杂相比较,采用我们的方法可以减少 18% 计算复杂度。
我们的方法的问题是还不够成熟,需要进一步完善。
4、FFT的并行/串行实现
FFT 的实现是一个很复杂的问题,不管是串行或并行。针对普通方法实现,微软开发了 FFTW;针对 GPU 并行实现微软开发了 cuFFT。就我所知,由于对计算机内部资源的管理和应用的不对称,目前还没有一个FFT的软件可以完全 PK 微软的这两个软件。
我在实现代码,在针对长度小于等于 2048 FFT 时,在我的个人电脑上, 比FFTW 和 cuFFT要快。随着长度的加大,我们的代码所需时间所承指数增加是(这符合 FFT 的计算复杂度),但 FFTW 和 cuFFT 好象不是这样 (或者他们的表现具有非常不明显的指数增加特点)。
我开发了很多 FFT 源代码。
5、矩阵匹配算法
指导博士生一名,在 Information Science, IEEE Transactions on Parallel and Distributed Systems 等杂志发表论文 4 篇。
另外,我还是一名获得系统分析师资格证的软件工程技术人员。
教育及工作背景
1987.9—1990.7 华东地质学院计算机应用专业。
2000.9—2002.5 国防科技术大学计算机应用专业自考本科。
2008.9—2010.6 湘潭大学计算应用技术工程硕士。
2011.9—2015.6 湖南大学信息科学与工程学院计算机科学与技术工学博士学位。
1990.7—2002.9中南地质勘探局3095地质大队工程师。
2002.7—2011.9湖南工业大学计算机与通信学院高级工程师。
2015.9—迄今 湖南工业大学电气信息与工程学院副教授。
教学工作
在湖南工业大学期间承担本科生《大学计算机基础》、《C语言程序设计》、《Foxpro程序语言设计》等基础课程的教学。
研究方向
1. 快速傅立叶变换:在这方面的主要研究有:(1)设计高效算法,(2)充分利用硬件性能的更快速实现,(3)设计数据吞吐率更高能耗更小的快速傅立叶变换处理器,(4)针对具体的应用设计最高效的算法。我提出的三类七个FFT算法,完善了在目前已出版的算法的计算复杂度和计算精度等方面的性能。
2. 多尺度信号处理:傅立叶变换不能进行多尺度分析 (这也使得小波应运而生),为了进行数据的局部分析,傅立叶变换引入了滑窗。这很好的解决了一部分需要多尺度分析的问题,但还有一部分问题没有得到很好解决。所以,傅立叶变换的多尺度分析的研究就有了其理论和实际价值。(这个方向是我的原创)
3. 寄存器访问优化:一种新的寄存器访问冲突被发现,这种冲突发生在循环中。其表现为当程序(不是循环)多次(>100次)重复执行时,执行速度急剧减慢。(该冲突出现于快速傅立叶实现中,也普遍存在于其它程序中)。
4. 内存优化:对于多层次内存模型,内存访问方式和系统的性能关系密切。由此可知,内存访问性能关乎快速傅立叶变换的。
获奖情况
1. 1992年获得核工业部科技进步三等奖。
2. 2013年获得“湖南大学优秀博士研究生校长奖学金”。
3. 2014年获得“湖南大学优秀博士研究生学校奖学金”。
4. 2014年获得“博士研究生国家奖学金”。
5. 2015 年获得“国家高性能计算协同创新中心”优秀博士论文奖。
主持的课题
1. 快速傅里叶变换算法及并行实现, 湖南省教育厅研究生科研创新项目.课题编号: CX2014B149。
参与的科研课题
2. 大规模异构并行系统的高效能调度理论与方法, 国家重点自然科学基金项目.课题编号: 61133005。
3. 弹载SAR图像信息处理及SoC实现关键技术研究, 总装预先研究重点项目。
4. 面向异构并行系统的生物序列比对并行策略及算法研究, 国家自然科学基金项目.课题编号: 61173013。
参与的横向课题
5. 衡阳市邮电局号线系统。
6. 任天堂游戏“臭屁王”。
7. 富士康龙华本部资源管理系统--“SAP系统”。
近期发表的论文
1. W. Zheng and K. Li, “Split radix algorithm for length 6m DFT,” IEEE Signal Processing Letters, vol. 20, pp. 713–716, July 2013.
2. W. Zheng, Kenli. Li, and Keqin. Li, “A fast algorithm based on SRFFT for length N=q×2m DFTs,” IEEE Transactions on Circuits and Systems–II: Express Briefs, vol. 61, pp. 110–114, February 2014.
3. W. Zheng, Kenli. Li, and Keqin. Li, “Scaled Radix-2/8 Algorithm for Efficient Computation of Length-N=2m DFTs”, IEEE Transactions on Signal Processing, VOL. 62, NO. 10, 2492—2503,MAY 15, 2014.
4. Kenli Li, Weihua Zheng, Keqin Li. A Fast Algorithm with Less Operations for Length-N = q × 2m DFTs[J], IEEE TRANSACTIONS ON SIGNAL PROCESSING, Vol. 63, No. 3, Pages 673--685, Feb. 1, 2015, DOI 10.1109/TSP.2014.2379678..
5. W. Zheng, Kenli. Li, and Keqin, Li. Datapath-Regular Implementation and Scaled Technique for N=3 × 2 m DFTs[J], Signal Processing, 11(3): 68–79, 2015 (doi:10.1016/j.sigpro.2015.01.008.
6. W. Zheng, Kenli. Li, Keqin. Li, and H.C. So. A Modified Multiple Alignment Fast Fourier Transform with Higher Efficiency[J], IEEE/ACM Transactions on Computational Biology and Bioinformatics, 14(3), 634--645, Feb, 2016.
7. W. Zheng, Kenli. Li and Keqin. Li. Zheng W, Xiao S, Li K, et al. A performance-efficient and datapath-regular implementation of modified split-radix fast Fourier transform[J]. Journal of Intelligent & Fuzzy Systems, July 2016, 31(2): 957-965.
8. 1 Zhang L, Li K, Zheng W, et al. Contention-Aware Reliability Efficient Scheduling on Heterogeneous Computing Systems[J]. IEEE Transactions on Sustainable Computing, 2018, 3(3): 182-194.
9. 2 Li H, Li K, An J, W. Zheng, et al. An efficient manifold regularized sparse non-negative matrix factorization model for large-scale recommender systems on GPUs[J]. Information Sciences, 2018.
10. 3 Xiao S P, Lian H H, Zeng H B, W. Zheng, et al. Analysis on robust passivity of uncertain neural networks with time-varying delays via free-matrix-based integral inequality[J]. International Journal of Control, Automation and Systems, 2017, 15(5): 2385-2394.
11. 郑伟华, 戴永. 自适应同态对数光照补偿[J]. 中国图象图形学报, 2011, 16(8): 1429-1436.
12. 郑伟华, 戴永. 非线性复合邻域人脸光照补偿[J]. 计算机工程与应用, 2011, 47(13).
13. 郑伟华, 郑金华. 狭义遗传算法的遗传机理分析[J]. 湘潭大学自然科学学报, 2003, 25(1): 21-23.
14. W. Zheng, Kenli. Li, and H.C. So. Efficient Input and/or Output Pruning FFT via Conjugate Pair and Transform Decomposition[J], IEEE TRANSACTIONS ON SIGNAL PROCESSING, 2015(Submitted, Under viewer).
未来的工作
1. 傅立叶变换的结果是采样信号的频域信息,不包含时域(可以确定信息位置的)信息。快速傅立叶变换采用按阶段局部(不需要申请额外的存储空间)的方式计算,因其计算的局部特征仅保存下一阶段必须的频率信息,隐含的时域信息被丢弃。如果将快速傅立叶变换的计算过程像小波一样组织, 将一些中间的隐含了时域信息的数据加以保留分析,傅立叶分析的性能将会得到提高。
2. 基-2/8FFT和常用基-2FFT、基-4FFT、基-8FFT、基-2/4FFT相比, 具有乘法操作较少的优点。该算法在FFT处理器上的实现可能意谓着较少的乘法器的需求或较少的乘法器的使用频率, 即,基于算法基-2/8FFT的处理器可以减少成本和能耗。 我们提出的递推实现L-型蝶FFT的方法可以实现基-2/8FFT算法,该技术和动态电压频率调整(DVFS)技术的结合, 就能够设计新的FFT处理器,实现预期目标。
3. 和CPU相比,GPU的单精度计算精度很差(GPU的双精度计算速度较慢)。FFT在GPU上的实现就存在计算精度低的问题。未来我想使用误差修正的方法来并行FFT, 提高FFT在GPU上的并行计算精度。
4. MIT的一群研究者提出了G/GT算法,该算法改善了基-2 FFT查表访问旋转因子的性能。虽然该算法有很多方面的限制,但G/GT算法可能开启了一个新的研究方向:(1) 该方法扩展到其它FFT算法的研究。(2) 该算法的新特征是否可用来减少计算复杂度。
5. 一些递推的FFT程序重复执行一定次数之后,其CPU时间急剧增加。我们想在未来的工作中通过内存优化的方法来解决该现象中包含的问题。
6. GOOD算法在变换时不需要旋转因子。但我们提出的带常数因子DFT技术在此基础之上可以更进一步完善算法的计算复杂度。我们可以将算法内部的因子抽取出来组成带常数因子DFT来完善算法的性能。将我们的技术应用到GOOD算法的场景可以减少算法的计算复杂度的阶。