优化推理逻辑 在Multi-head Attention中加入了key和value的cache,每次inference只需要输入新生成的token ... pip install tensor_parallel python llama_infer.py --test_path ./prompts.txt --prediction_path ./result.txt \ ...