编程语言新宠儿——Julia诞生记
| 2012-02-29 12:46 分享: 1
导读:本文作者Stefan Karpinski是一名数据科学家和应用数学家。曾就职于Akamai, Citrix Online和Etsy;Viral Shah爱好对高性能计算机研究工作,曾就职于微软Star-P部门;Alan Edelman是一名教授,从事高性能计算、数值计算、线性代数、随机特征分析(随机矩阵理论)等方面研究。文中探讨了Julia语言的开发缘由以及它的新特性。笔者认为一门新语言的诞生势必会掀起一阵新的旋风,开发者在享受它带来乐趣的同时也在为它的存在价值而争论不休,究竟Julia能否给开发者带来新的福音呢?让我们来一同走进它:
为什么要创建Julia编程语言?
用一句话来说,因为我们求知若渴、不断追求。
我们拥有Matlab核心用户,有擅长Lisp方面的黑客,Pythonistas和Rubyists方面的专家也有不少;此外,还有一些是 Perl方面的大牛,有一部分开发者在我们刚略懂皮毛前便使用了Mathematica。换句话说,他们懂的不仅仅是皮毛,比起其他人,开发R语言要多的 多。而C语言对我们来说却是一块荒岛。
我们非常热爱这些语言,他们是如此的完美和强大。我们在科学计算、机器学、数据挖掘,大型线性代数和分布式并行计算做了大量的研究工作——可以说每个项目都有各自的优势,甚至给其他人产生畏惧。任何一个项目都会权衡考量。
我们贪婪,我们想要的更多。
我们需要有一门开源语言,这门语言在行业内是被公认许可的(基于许可证情况下)。我们希望这门语言能够有C语言一样的速度,Ruby一样得活力 (dynamism)。我们需要像homoiconic一样的语言,它像Lisp一样有宏,但是也像Matlab一样有显而易见、熟悉的数学标记。
我们希望传统的编程语言像Python一样适用,像R语言一样适用于统计,像Perl一样适用于字符串处理,像线性代数Matlab一样强大,像 DOS命令一样擅长粘合程序。这似乎看起来简单易学,但是想要让黑客乐意去迎合它却不是简单之事。我们希望它具有互动性且能够被编译。
像C语言一样运行速度之快?
希望提供的需求:Hadoop分布式核心,因为没有Java和XML千字节的样板文件,无法在数百台机器上通过千兆字节的日志文件进行筛选查找Bug。
拒绝复杂化的操作权限。我们想写一段简单的分等级的循环(代码),这段循环(代码)通过一个单核CPU上的寄存器利用严密的机器代码就可以编译。比如写一个A*B的代码,然后用一千台计算机进行1000次计算,这些计算机放在一起就是一个巨大的矩阵产品。
当我们不喜欢类型时,永远不会提起它。当需要动态函数时,需要利用泛型编程来编写算法并将其应用到类型中,寻求最佳方法从多重角度且有效的为所有函数挑选参数,通过数十种方法来定义不同类型间的共同特性,付出这么多的努力,我们无非是想语言变得更加简单、干净。
所有这些要求看起来并不过分,对吗?
大约两年半前,开始着手开发这门语言,那时还不是完整版,随着发布时间临期将至,最终1.0版酝酿而生——我们将其命名为Julia。
1.0版基本上90%达到了我们的“无理”要求。而现在需要您来提出“无理”要求并进一步改造它。因此,如果您也是一名积极进取、求知若渴的程序员,您不妨来试一试。
编程语言新宠——Julia诞生
Julia是一个新的高性能动态高级编程语言。语法和其他编程语言类似,易于其他语言用户学习。Julia拥有丰富的函数库,提供了数字精度、精致 的增幅器(sophisticated amplifier)和分布式并行运行方式。核心函数库等大多数库是由Julia编写,但也用成熟的C和FORTRAN库来处理线性代数、随机数产生和字 符串处理等问题。Julia语言可定义函数并且根据用户自定义的参数类型组合再进行重载。
JIT高性能编译器
Julia使用的JIT(Just-in-Time)实时编译器很有效地提高了它的运行效率,在某些地方甚至能比得上C和C++。
下面通过标准测试程序来测试下它的效率,你可以自己比较下各语言的运行效率。
注:运行环境是MacBook Pro,2.53GHz,Intel Core2 Duo CPU和8G 1066MHz,DDR3内存。
上表中只有C++运行时间是绝对时间,其它都是相对于C++的相对时间,数值越小代表用时越少。除少数几项测试Julia惜败于Matlab和JavaScript外,Julia完胜其他高级语言,甚至在pi summation上,成功以25%的优势击败C++。通过使用Intel核心数学库(MKL),MatLabs在矩阵乘法运算中稍占便宜,但是拥有MKL授权的Julia同样可以使用Intel MKL库,不过默认的开源BLAS库性能也不错。
这个测试表是通过编译器性能对一系列常用代码模式进行分析而得出的。比如:字符串解析、函数调用/回调、排序和数值循环、生成随机数和数组运算等。
Julia克服了高级语言一直难以逾越的难关:标量算数循环(在pi summation上就能体现出来。)。Matlab的浮点运算JIT和 V8 JS引擎对此也处理得很好。但JS不支持LAPACK等线性代数库导致了在矩阵运算中的低性能,而Julia有比较多的方法消除负载(overhead),使得它可以轻松支持任何函数库。
矩阵统计的Julia代码虽然性能上比不上C++但却要简洁得多。然而,规范和编制太过随意可能会在将来成为一个问题。
Julia代码示例:
function mandel(z) c = z maxiter = 80 for n = 1:maxiter if abs(z) > 2 return n-1 end zz = z^2 + c end return maxiter end function randmatstat(t) n = 5 v = zeros(t) w = zeros(t) for i = 1:t a = randn(n,n) b = randn(n,n) c = randn(n,n) d = randn(n,n) P = [a b c d] Q = [a b; c d] v[i] = trace((P.'*P)^4) w[i] = trace((Q.'*Q)^4) end std(v)/mean(v), std(w)/mean(w) end
为并行处理和云计算而生
Julia为分布式计算提供很多关键模块,使得它可以更加灵活地支持多种并行处理。
虽然还是早期版本,Julia已经支持了云计算。下面是基于交互性的Julia会话截图:
Julia将提供更加完整的性能支持云计算操作,比如分享和编辑,包括数据管理、数据挖掘和可视化操作等。它还允许用户操作大数据类型而不用关心数据操作行为。
免费、开源和Library Friendly
TJulia的核心代码遵循MIT协议,而其他库各自遵循GPL/LGPL/BSD等协议。用户还可以方便地将Julia作为核心功能共享库与C/FORTRAN代码联合使用。