代码优化

基本原则

编写高性能 Julia 代码的两条基本原则：^[1]

确保编译器能推断出每个变量的类型（避免类型不稳定）
避免不必要的堆分配（减少垃圾回收压力）

编译器的任务是将 Julia 代码翻译成高效的机器码。若某个变量的类型在运行前无法推断，编译器就无法为其生成优化代码，这种现象称为类型不稳定（type instability）。

堆分配（heap allocation）发生在创建大小未知的对象时（如可变长度的 Vector）。Julia 使用标记-清除式垃圾回收器（GC），GC 运行时会暂停代码执行，因此应尽量减少分配次数。

最常见的新手陷阱是使用未注类型的全局变量而不将其作为参数传递——全局变量的类型可在函数体外部改变，导致类型不稳定，进而产生更多堆分配。

建议阅读官方的性能提示以获取更全面的指导。

性能测量

`@time` 与 `@timev`

最简单的性能测量方法是使用 @time 宏，它会返回代码结果并打印运行时间和分配量。注意：第一次运行包含编译时间，应先预热再计时：

julia> sum_abs(vec) = sum(abs(x) for x in vec);
julia> v = rand(100);
julia> @time sum_abs(v);   # 不准确，包含编译时间
julia> @time sum_abs(v);   # 准确
0.000006 seconds (1 allocation: 16 bytes)

BenchmarkTools.jl

BenchmarkTools.jl 是最流行的重复测量工具包，通过多次运行消除偶发性误差。使用 $ 对外部变量进行插值可消除全局变量带来的额外开销：^[1]

julia> using BenchmarkTools
julia> @btime sum_abs(v);       # 不插值
julia> @btime sum_abs($v);      # 插值，更准确

需要在每次样本前重新构造输入时，可使用 setup 阶段：

julia> @btime my_matmul(A, b) setup=(
    A = rand(1000, 1000);
    b = rand(1000)
);

@benchmark 宏会展示性能分布直方图，提供更丰富的统计信息。

Chairmarks.jl

Chairmarks.jl 是另一个基准测试工具包，语法略有不同：

julia> using Chairmarks
julia> @b sum_abs($v)
julia> @b v sum_abs       # 管道语法

支持 init、setup、teardown 等参数以精细控制基准过程，详见 Chairmarks 文档。PrettyChairmarks.jl 可展示性能分布直方图。

基准测试套件

若需追踪性能回归，以下工具可用于跨版本的持续性能监控：

TimerOutputs.jl 可对代码的不同部分打标签并按标签汇总计时结果。ProgressMeter.jl 或 ProgressLogging.jl 可在等待较慢循环时显示进度条。

性能分析

基准测试测量整体性能，而性能分析（profiling）则逐函数找到瓶颈所在。

采样分析

Julia 内置了两种基于采样的分析器：运行时分析器（Profile 模块）和内存分析器（Profile.Allocs 子模块）。分析结果最适合以火焰图（flame graph）的形式可视化——水平方向的每一层对应调用栈的一级，块的宽度表示在该函数中花费的时间比例。^[1]

可视化工具

ProfileView.jl 和 PProf.jl 都可以记录并交互式查看火焰图，后者基于 Google 维护的 pprof 工具，功能更强：

using ProfileView
@profview do_work(some_input)

在 VSCode 中，直接在集成 REPL 中调用 @profview 即可打开交互式火焰图，无需单独安装 ProfileView.jl。

ProfileSVG.jl 和 ProfileCanvas.jl 适合在 Jupyter/Pluto 中嵌入可视化结果。StatProfilerHTML.jl 可生成独立的 HTML 文件，便于分享。

Tip

如果代码执行太快，采样器可能无法收集足够的样本，此时可将其放在循环中多次运行。

类型稳定性

何为类型稳定

某段代码被视为类型稳定，要求编译器推断出的类型为具体类型（concrete type），即其内存大小在编译时已知。抽象类型（如 Any、AbstractVector）和未指定参数的参数化类型不是具体类型：^[1]

julia> isconcretetype(Any)
false
julia> isconcretetype(Vector{Int64})
true

类型稳定的函数调用编译为快速的 GOTO 指令，而类型不稳定的调用需要在运行时查找匹配的方法（动态分派），阻止进一步优化。

检测类型不稳定

使用内置宏 @code_warntype 查看类型推断结果——若函数体的返回类型为 Any 等抽象类型，则存在类型不稳定（在标准 REPL 中以红色高亮显示）：

julia> @code_warntype put_in_vec_and_sum(1)

@code_warntype 局限于当前函数体，无法展开内部调用。JET.jl 的优化分析可以更深入地检测类型不稳定：

julia> using JET
julia> @report_opt put_in_vec_and_sum(1)

Cthulhu.jl 的 @descend 宏可交互式逐层下钻到各级函数的类型推断结果，是排查深层类型不稳定的利器（参考视频演示）。

修复类型不稳定

参阅 Julia 手册中关于改善类型推断的技巧。DispatchDoctor.jl 的 @stable 宏可在类型不稳定发生时直接抛出错误，帮助提前发现问题。

内存管理

在保证类型稳定后，下一步是减少堆分配次数。Julia 手册有一系列关于数组与分配的技巧：^[1]

尽量原地修改数组而非分配新对象（注意数组切片的复制行为）
按列主序（column-major order）访问多维数组

AllocCheck.jl 的 @check_allocs 宏可在函数发生分配时抛出错误，也可在测试集中断言函数无分配：

@testset "非分配性" begin
    @test isempty(AllocCheck.check_allocs(my_func, (Float64, Float64)))
end

编译优化

Julia 存在较高的首次运行延迟（TTFX，Time To First X），以下工具可有效缓解这一问题。

预编译

PrecompileTools.jl 允许包作者提供一份"预热工作负载"，在包首次加载时预编译这些方法，之后用户调用它们时延迟大幅降低：^[1]

using PrecompileTools: @compile_workload

@compile_workload begin
    a = [MyType(1)]
    myfunction(a)
end

SnoopCompile.jl 可用于诊断预编译效果及重新编译（invalidation）问题。

包编译（Sysimage）

PackageCompiler.jl 可生成包含预编译包的自定义 Julia 系统映像（sysimage），使 using 语句几乎瞬间完成：^[1]

using PackageCompiler
create_sysimage(["Makie", "DifferentialEquations"]; sysimage_path="MySysimage.so")
# 使用：julia --sysimage=MySysimage.so

文件扩展名因系统而异：Linux 为 .so，macOS 为 .dylib，Windows 为 .dll。VSCode 的系统映像工作流可进一步简化这一过程。

静态编译

PackageCompiler.jl 还支持将 Julia 模块编译为独立应用或可调用库，分发给未安装 Julia 的用户。StaticCompiler.jl 是另一种生成更小二进制文件的替代方案（但不包含 GC，需手动管理内存）。

并行计算

多线程

Julia 使用 Threads 标准库提供多线程支持（共享内存并行）。启动时指定线程数：^[1]

julia --threads 4
julia -t auto

运行 Threads.nthreads() 确认线程数。使用 Threads.@threads 并行化 for 循环：

results = zeros(Int, 4)
Threads.@threads for i in 1:4
    results[i] = i^2
end

Warning

多线程编程中需避免"竞态条件"（多个线程同时写同一内存位置）。通常建议用循环索引隔离内存访问，且不应使用 threadid()。

OhMyThreads.jl 提供了更高层、更易用的多线程接口，附有迁移指南。Polyester.jl 提供启动开销极低的轻量级线程。ThreadPinning.jl 可将 Julia 线程绑定到特定 CPU 核心以获得更稳定的性能。

分布式计算

Julia 的多进程/分布式计算依赖标准库 Distributed。与多线程的主要区别在于进程间不共享数据：^[1]

using Distributed
addprocs(3)
@everywhere using SharedArrays
@everywhere f(x) = 3x^2

results = SharedArray{Int}(4)
@sync @distributed for i in 1:4
    results[i] = f(i)
end

pmap 可方便地并行化 map 操作。MPI.jl 封装了 MPI 标准，适用于大规模 HPC 集群场景。

using StaticArrays, Accessors
sx = SA[1, 2, 3]          # 构造 SArray
@set sx[1] = 3            # 返回副本，不修改原变量
@reset sx[1] = 4          # 替换原变量

可变版本为 MArray、MMatrix、MVector，语法与普通数组一致。

经典数据结构

DataStructures.jl 提供了栈、队列、堆、树等经典数据结构。IterTools.jl 和 Memoize.jl 提供迭代和记忆化工具。更多相关包可在 JuliaCollections 组织下找到。

1 Modern Julia Workflows - Optimizing your code by G. Dalle, J. Smit, A. Hill（CC BY-SA 4.0）

代码优化

基本原则

性能测量

`@time` 与 `@timev`

BenchmarkTools.jl

Chairmarks.jl

基准测试套件

性能分析

采样分析

可视化工具

类型稳定性

何为类型稳定

检测类型不稳定

修复类型不稳定

内存管理

编译优化

预编译

包编译（Sysimage）

静态编译

并行计算

多线程

分布式计算

GPU 编程

SIMD 指令

高效数据结构

静态数组

经典数据结构