GMAI-MMBench

Leaderboard

Model name	Overall (val)	Overall (test)	AR	BVR	B	CR	C	DD	IQG	MR	M	NT	OR-A	OR-HN	OR-P	OR-T	SG	SAR	SIR	SWR
Random	25.70	25.94	38.20	22.73	22.92	22.72	24.06	26.66	27.13	27.00	20.00	24.75	21.37	22.93	22.33	21.18	32.43	24.23	21.39	23.71
Medical Special Model
MedVInT	2.29	1.96	5.75	0.00	0.00	0.00	2.56	2.11	4.05	0.00	0.00	0.00	0.11	0.00	0.00	0.12	7.36	0.00	1.88	0.00
Med-Flamingo	12.74	11.64	6.67	10.14	9.23	11.27	6.62	13.43	12.15	6.38	8.00	18.18	9.26	18.27	11.00	11.53	12.16	5.19	8.47	11.43
LLaVA-Med	20.54	19.60	24.51	17.83	17.08	19.86	15.04	19.81	20.24	21.51	13.20	15.15	20.42	23.73	17.67	19.65	21.70	19.81	14.11	20.86
Qilin-Med-VL-Chat	22.34	22.06	29.57	19.41	16.46	23.79	15.79	24.19	21.86	16.62	7.20	13.64	24.00	14.67	12.67	15.53	26.13	24.42	17.37	25.71
RadFM	22.95	22.93	27.16	20.63	13.23	19.14	20.45	24.51	23.48	22.85	15.60	16.16	14.32	24.93	17.33	21.53	29.73	17.12	19.59	31.14
MedDr	41.95	43.69	41.20	50.70	37.85	29.87	28.27	52.53	36.03	31.45	29.60	47.47	33.37	51.33	32.67	44.47	35.14	25.19	25.58	32.29
Open-Source LVLMs
CogVLM-grounding-generalist	5.20	5.66	3.11	4.02	2.92	3.22	10.83	7.98	9.72	0.15	0.00	11.11	8.32	1.87	1.67	2.00	1.65	0.00	4.02	0.57
XComposer	8.92	7.67	1.38	7.69	8.31	12.34	22.86	7.31	6.07	5.49	2.80	16.16	5.05	8.67	2.00	9.76	11.94	7.31	3.17	4.00
PandaGPT 13B	16.69	16.27	24.51	23.60	22.15	23.61	14.29	14.95	13.36	12.17	18.40	28.79	18.63	27.33	18.67	16.71	11.04	9.23	13.43	9.71
Flamingo v2	25.58	26.34	37.74	21.50	20.62	22.00	22.41	27.29	25.91	27.45	18.00	28.79	25.16	22.13	22.00	22.00	34.61	22.88	20.44	27.43
VisualGLM-6B	29.58	30.45	40.16	33.92	24.92	25.22	24.21	32.99	29.96	29.53	21.20	37.88	30.32	24.80	13.33	29.88	33.11	19.62	19.16	37.43
Idefics-9B-Instruct	29.74	31.13	40.39	30.59	26.46	33.63	22.56	34.38	25.51	26.71	21.60	27.78	27.47	32.80	24.67	23.41	32.66	23.08	21.39	30.57
InstructBLIP-7B	31.80	30.95	42.12	26.92	24.92	28.09	21.65	34.58	31.58	29.23	22.40	30.30	28.95	27.47	23.00	24.82	32.88	19.81	21.64	26.57
Mini-Gemini-7B	32.17	31.09	29.69	39.16	31.85	28.26	10.38	35.58	29.96	28.78	20.80	34.34	29.58	36.53	24.00	31.76	22.45	25.96	18.56	29.43
MMAlaya	32.19	32.30	41.20	35.14	32.15	34.17	27.82	35.09	28.34	30.27	18.00	46.97	20.21	31.20	16.00	34.59	32.28	23.65	22.93	30.29
Qwen-VL	34.80	36.05	37.05	37.24	35.85	28.98	24.81	43.60	24.70	30.12	19.20	44.44	29.68	31.87	25.00	31.18	30.26	21.54	20.10	26.86
Yi-VL-6B	34.82	34.31	41.66	39.16	26.62	30.23	31.88	38.01	26.72	24.93	25.20	37.37	29.58	31.20	32.33	30.59	36.71	24.81	23.18	31.43
LLaVA-NeXT-vicuna-7B	34.86	35.42	40.62	38.64	21.08	35.42	23.91	41.22	32.39	28.04	20.53	44.95	27.92	34.98	20.22	32.82	33.63	23.08	25.06	34.86
Qwen-VL-Chat	35.07	36.96	38.09	40.56	38.00	32.20	25.71	44.07	24.70	30.56	24.00	40.91	29.37	36.53	26.00	27.29	35.14	16.54	20.10	34.00
CogVLM-Chat	35.23	36.08	40.97	30.77	27.69	32.74	19.40	41.10	36.84	34.72	24.00	40.91	36.74	37.33	26.00	33.65	36.56	20.19	23.95	26.57
Monkey	35.48	36.39	38.32	35.31	35.54	34.53	23.16	43.40	31.98	30.12	19.20	33.33	30.00	32.53	25.33	31.65	34.46	20.00	20.27	30.29
mPLUG-Owl2	35.62	36.21	37.51	41.08	30.92	38.10	27.82	41.59	28.34	32.79	22.40	40.91	24.74	38.27	23.33	36.59	33.48	20.58	23.01	32.86
ShareCaptioner	36.37	36.19	42.35	32.69	31.08	27.19	30.83	41.19	30.36	33.23	28.40	42.93	27.79	33.73	28.33	40.71	29.58	20.96	28.83	30.00
Emu2-Chat	36.50	37.59	43.27	47.73	26.31	40.07	28.12	44.00	36.44	28.49	20.40	31.82	26.74	37.60	26.67	29.76	33.63	23.27	26.43	29.43
XComposer2-4KHD	36.66	38.54	41.89	39.86	28.77	40.43	20.60	44.25	35.22	33.53	22.80	42.42	34.84	29.60	44.00	39.53	35.21	21.54	27.20	38.00
ShareGPT4V-7B	36.71	36.70	43.96	37.59	21.54	37.57	18.80	43.26	32.39	27.30	22.80	43.43	29.47	37.33	22.00	31.76	34.98	24.42	25.06	30.00
LLaVA-NeXT-mistral-7B	37.20	37.16	38.43	27.98	20.31	29.16	20.60	47.19	30.36	32.64	22.40	55.56	32.75	25.58	17.56	34.04	28.38	23.27	24.12	37.43
LLAVA-V1.5-13b-xtuner	37.82	38.74	44.65	29.02	27.08	38.28	28.87	45.32	32.79	30.12	20.40	45.96	33.47	42.53	44.33	37.53	33.48	19.62	22.58	35.43
OmniLMM-12B	37.89	39.30	39.82	40.56	32.62	37.57	24.81	46.68	35.63	35.01	27.60	57.58	28.42	34.00	25.00	29.18	34.46	24.42	27.54	40.29
InternVL-Chat-V1.1	38.16	39.41	42.46	43.88	35.23	45.08	23.31	45.96	38.87	29.23	29.60	40.40	31.68	41.87	26.67	38.82	32.13	19.42	25.58	30.29
LLAVA-V1.5-7B	38.23	37.96	45.45	34.27	30.92	41.32	21.65	44.68	34.01	27.74	23.60	43.43	28.00	42.13	29.00	35.06	33.41	22.12	23.61	29.14
Monkey-Chat	38.39	39.50	40.62	41.43	37.08	35.24	23.76	47.73	29.96	32.94	26.00	37.88	34.84	32.67	24.67	33.18	34.91	21.73	22.24	34.00
LLAVA-V1.5-7B-xtuner	38.68	38.22	38.90	40.03	28.00	40.25	30.08	44.08	33.60	32.49	21.20	40.91	29.47	40.40	30.33	38.59	31.46	23.85	26.95	36.86
XComposer2	38.68	39.20	41.89	37.59	33.69	40.79	22.26	45.87	36.44	32.94	27.20	58.59	26.11	36.40	43.67	37.29	32.06	23.46	27.80	32.86
LLAVA-InternLM-7b	38.71	39.11	36.36	36.54	32.62	38.10	30.68	46.53	34.82	28.19	25.20	48.99	28.11	40.53	33.33	36.00	34.08	26.73	24.12	29.71
TransCore-M	38.86	38.70	40.74	41.78	20.77	35.06	34.74	45.69	32.39	32.94	24.40	44.95	31.05	38.93	27.00	33.76	33.86	23.46	25.49	31.14
InternVL-Chat-V1.5	38.86	39.73	43.84	44.58	34.00	33.99	31.28	45.59	33.20	38.28	32.40	42.42	31.89	42.80	27.00	36.82	34.76	23.27	24.72	32.57
InternVL-Chat-V1.2-Plus	39.41	40.79	42.58	42.31	32.46	37.03	31.43	47.49	42.51	35.01	21.20	50.51	34.95	42.93	22.67	42.47	35.74	22.31	24.98	28.29
InternVL-Chat-V1.2	39.52	40.01	41.66	44.06	27.38	38.46	34.29	46.99	33.60	34.42	21.20	47.98	30.63	42.80	27.67	35.88	35.59	23.85	24.98	28.00
LLAVA-InternLM2-7b	40.07	40.45	39.82	37.94	30.62	35.24	29.77	48.97	34.01	25.96	20.80	53.03	30.95	42.67	32.00	39.88	32.43	21.73	24.38	38.00
DeepSeek-VL-1.3B	40.25	40.77	38.55	35.14	38.92	40.07	27.97	48.12	35.63	31.75	22.80	46.97	40.74	44.93	31.00	40.47	33.33	22.31	21.39	31.71
MiniCPM-V	40.95	41.05	39.70	46.50	36.31	39.36	22.26	48.09	34.82	35.76	24.00	45.45	34.11	44.80	23.00	44.47	36.19	21.15	23.95	35.14
DeepSeek-VL-7B	41.73	43.43	38.43	47.03	42.31	37.03	26.47	51.11	33.20	31.16	26.00	44.95	36.00	58.13	36.33	47.29	34.91	18.08	25.49	39.43
MiniCPM-V2	41.79	42.54	40.74	43.01	36.46	37.57	27.82	51.08	28.74	29.08	26.80	47.47	37.05	46.40	25.33	46.59	35.89	22.31	23.44	31.71
Proprietary LVLMs
Claude3-Opus	32.37	32.44	1.61	39.51	34.31	31.66	12.63	39.26	28.74	30.86	22.40	37.37	25.79	41.07	29.33	33.18	31.31	21.35	23.87	4.00
Qwen-VL-Max	41.34	42.16	32.68	44.58	31.38	40.79	10.68	50.53	32.79	44.36	29.20	51.52	41.37	58.00	30.67	41.65	26.95	25.00	24.64	39.14
GPT-4V	42.50	44.08	29.92	48.95	44.00	37.39	12.93	52.88	32.79	44.21	32.80	63.64	39.89	54.13	37.00	50.59	27.55	23.08	25.75	37.43
Gemini 1.0	44.38	44.93	42.12	45.10	46.46	37.57	20.45	53.29	35.22	36.94	25.20	51.01	34.74	59.60	34.00	50.00	36.64	23.65	23.87	35.43
Gemini 1.5	47.42	48.36	43.50	56.12	51.23	47.58	2.26	55.33	38.87	48.07	30.00	76.26	51.05	75.87	46.33	62.24	20.57	27.69	30.54	40.57
GPT-4o	53.53	53.96	38.32	61.01	57.08	49.02	46.62	61.45	46.56	56.38	34.00	75.25	53.79	69.47	48.67	65.88	33.93	22.88	29.51	39.43

Model name	Overall (val)	Overall (test)	CS	D	E	GH	GS	H	ID	LMP	NH	N	OG	OM	O	OS	ENT/HNS	PM	SM	U
Random	25.70	25.94	22.82	25.19	21.00	25.97	22.24	24.45	31.13	28.99	22.86	24.00	29.15	27.77	30.36	25.92	22.53	24.74	22.87	29.19
Medical Special Model
MedVInT	2.29	1.96	0.24	2.50	1.00	1.94	1.09	0.88	3.31	5.23	1.14	0.73	0.00	1.40	4.44	0.56	0.00	2.24	0.64	0.86
Med-Flamingo	12.74	11.64	11.76	12.49	10.00	10.88	9.33	5.42	7.28	10.05	12.00	10.91	12.88	14.89	15.37	12.40	13.43	12.89	14.92	10.47
LLaVA-Med	20.54	19.60	26.12	20.20	29.00	20.31	16.30	18.46	15.23	21.84	20.86	16.73	21.69	19.23	20.18	18.38	20.99	16.87	20.49	21.55
Qilin-Med-VL-Chat	22.34	22.06	12.94	21.06	15.50	22.09	18.98	17.33	17.88	22.92	31.14	29.82	20.00	21.83	25.55	19.07	14.81	29.42	22.17	22.29
RadFM	22.95	22.93	24.24	23.02	20.00	20.59	20.83	19.49	28.48	24.42	18.00	32.00	16.95	26.90	26.25	18.26	26.54	25.19	23.74	20.20
MedDr	41.95	43.69	53.18	45.28	33.00	44.78	28.03	29.91	47.68	35.22	38.29	78.55	25.08	49.53	45.31	52.09	48.61	52.36	54.21	39.90
Open-Source LVLMs
CogVLM-grounding-generalist	5.20	5.66	6.59	7.27	4.50	4.94	3.58	4.44	5.96	2.66	19.14	17.82	7.80	7.94	5.00	5.36	5.40	7.86	4.59	2.34
XComposer	8.92	7.67	13.18	2.71	5.00	5.33	4.35	10.88	3.31	6.40	4.00	25.09	6.44	9.15	9.95	8.91	4.01	8.11	9.87	5.54
PandaGPT 13B	16.69	16.27	17.41	12.70	17.00	17.20	12.68	15.42	23.84	14.70	14.86	10.55	8.81	14.29	24.75	16.26	17.13	18.07	12.07	13.92
Flamingo v2	25.58	26.34	28.47	26.06	18.50	28.58	21.11	24.24	29.14	28.07	13.43	29.45	22.37	28.17	31.85	23.12	27.78	23.54	27.57	29.19
VisualGLM-6B	29.58	30.45	52.71	25.95	14.00	31.69	22.06	25.17	30.46	25.50	30.29	59.27	15.93	29.97	37.79	30.09	23.61	32.85	38.19	23.03
Idefics-9B-Instruct	29.74	31.13	19.76	33.98	21.00	30.08	24.46	26.66	50.33	28.74	36.00	58.55	36.27	29.64	36.76	36.07	24.38	31.36	32.04	29.19
InstructBLIP-7B	31.80	30.95	27.06	28.99	17.50	34.24	21.78	25.84	43.05	29.15	19.14	53.09	27.46	28.64	31.99	34.58	30.25	30.76	41.09	31.28
Mini-Gemini-7B	32.17	31.09	34.59	39.63	23.50	35.74	23.46	19.80	41.06	25.91	40.86	56.00	19.32	21.63	35.73	35.83	33.95	40.57	29.14	29.56
MMAlaya	32.19	32.30	71.06	37.68	38.00	28.30	27.40	27.64	51.66	32.39	28.86	83.64	29.49	27.37	35.92	36.70	20.99	27.53	29.43	28.08
Qwen-VL	34.80	36.05	39.53	41.59	40.50	28.69	20.74	26.77	45.03	28.82	56.57	73.09	39.32	41.39	39.23	43.36	33.64	35.74	45.15	42.73
Yi-VL-6B	34.82	34.31	39.76	43.76	56.00	27.30	25.91	27.23	45.70	32.56	44.29	65.45	47.46	36.38	39.00	35.39	25.46	29.77	39.06	35.22
LLaVA-NeXT-vicuna-7B	34.86	35.42	40.00	37.13	51.60	31.82	29.15	26.18	49.01	31.06	32.94	65.33	28.44	35.98	43.21	38.71	26.87	40.02	36.47	32.36
Qwen-VL-Chat	35.07	36.96	36.47	39.63	36.50	27.08	20.79	27.64	60.93	30.23	52.57	70.55	37.29	47.13	39.37	46.67	34.57	37.63	47.88	39.90
CogVLM-Chat	35.23	36.08	30.59	38.98	42.50	31.41	26.22	23.62	47.02	34.22	51.43	56.00	32.54	44.13	38.67	37.94	30.86	41.11	45.91	29.19
Monkey	35.48	36.39	38.59	39.52	35.00	29.74	20.97	25.73	52.98	28.90	48.29	68.00	34.24	41.46	40.78	45.23	31.79	39.27	45.91	42.49
mPLUG-Owl2	35.62	36.21	47.76	40.50	41.00	33.46	27.22	28.16	51.66	33.14	38.86	68.73	16.27	38.58	43.34	35.70	27.78	41.61	39.76	30.91
ShareCaptioner	36.37	36.19	37.88	35.50	45.50	35.63	25.54	28.16	56.29	31.15	27.14	64.00	35.59	38.52	39.65	38.57	30.56	44.05	36.68	40.15
Emu2-Chat	36.50	37.59	27.53	35.83	27.50	34.41	28.49	29.35	60.26	36.63	34.00	64.73	28.81	44.79	43.20	37.69	37.50	41.86	43.18	35.34
XComposer2-4KHD	36.66	38.54	48.00	40.17	75.50	36.46	28.80	28.11	49.67	35.96	50.29	69.45	38.64	40.45	43.86	39.63	29.94	43.26	34.13	42.86
ShareGPT4V-7B	36.71	36.70	43.76	39.09	48.50	37.24	27.90	23.88	49.01	30.40	46.29	60.73	29.15	44.46	44.56	37.57	30.40	38.03	35.98	36.95
LLaVA-NeXT-mistral-7B	37.20	37.16	42.96	40.17	46.40	37.84	28.53	23.76	52.32	31.81	46.59	73.00	21.25	47.08	42.61	33.37	22.75	46.94	37.45	33.48
LLAVA-V1.5-13b-xtuner	37.82	38.74	43.06	39.20	43.50	42.01	26.36	26.41	48.34	35.55	38.29	70.55	38.64	51.60	42.08	34.70	34.41	43.90	39.35	41.26
OmniLMM-12B	37.89	39.30	39.53	37.46	41.50	36.18	27.36	28.00	60.93	37.46	55.43	80.00	31.19	35.71	44.89	42.49	28.24	43.80	51.19	42.86
InternVL-Chat-V1.1	38.16	39.41	45.88	40.07	56.00	34.30	26.68	26.20	52.32	37.79	45.14	64.00	35.93	52.74	44.14	40.56	39.51	41.16	45.56	35.84
LLAVA-V1.5-7B	38.23	37.96	42.35	37.57	44.50	36.13	27.99	24.91	49.01	31.31	34.00	68.36	27.12	45.39	42.46	42.80	33.80	44.20	41.21	38.92
Monkey-Chat	38.39	39.50	43.53	40.28	40.00	33.30	23.28	29.09	54.97	29.73	55.71	72.36	35.25	50.53	42.41	45.98	33.49	42.66	50.15	44.83
LLAVA-V1.5-7B-xtuner	38.68	38.22	51.53	35.07	31.00	38.07	31.52	29.04	58.94	36.79	28.29	69.09	29.15	50.80	39.89	40.12	27.78	40.82	39.12	36.08
XComposer2	38.68	39.20	32.71	42.13	70.50	33.13	29.62	27.02	54.30	34.05	23.14	83.64	39.66	46.53	44.23	45.73	28.86	45.55	41.32	41.87
LLAVA-InternLM-7b	38.71	39.11	44.94	39.85	33.50	43.06	27.54	27.08	52.98	34.22	31.14	79.64	37.97	50.67	42.41	39.69	36.73	37.63	46.72	39.78
TransCore-M	38.86	38.70	39.06	43.87	24.50	40.18	29.08	30.79	52.98	32.48	38.86	66.91	42.37	42.79	44.75	40.44	36.73	34.00	47.19	35.71
InternVL-Chat-V1.5	38.86	39.73	36.47	44.84	53.50	37.07	26.63	31.61	60.26	34.14	36.29	67.27	37.63	55.21	47.13	38.69	41.98	39.17	37.55	41.26
InternVL-Chat-V1.2-Plus	39.41	40.79	51.06	43.54	60.00	39.07	29.39	31.82	50.99	37.54	54.00	79.64	30.17	50.87	43.72	37.88	36.88	42.61	43.53	38.55
InternVL-Chat-V1.2	39.52	40.01	40.71	46.25	77.50	31.52	26.36	31.10	50.33	36.96	52.00	80.00	31.19	45.46	43.20	40.06	34.10	44.40	46.66	42.36
LLAVA-InternLM2-7b	40.07	40.45	43.53	40.72	60.50	34.74	30.12	27.44	51.66	33.39	50.86	74.55	26.44	49.13	42.74	43.12	31.94	50.87	47.01	39.04
DeepSeek-VL-1.3B	40.25	40.77	56.71	37.13	27.00	45.73	28.40	27.85	52.32	35.96	45.43	71.64	45.42	50.20	41.66	47.48	37.81	43.90	45.50	33.50
MiniCPM-V	40.95	41.05	28.47	42.02	40.00	42.79	28.80	28.62	46.36	36.30	40.00	67.27	31.53	42.46	44.04	50.28	37.50	51.92	52.29	27.22
DeepSeek-VL-7B	41.73	43.43	60.00	43.97	47.50	45.12	28.22	31.20	46.36	32.97	52.29	67.64	61.36	49.27	44.23	49.97	52.78	45.00	53.63	38.79
MiniCPM-V2	41.79	42.54	37.88	43.65	35.50	42.67	26.49	29.24	37.75	33.31	59.71	67.27	38.64	50.87	42.64	50.59	40.90	51.07	57.81	35.10
Proprietary LVLMs
Claude3-Opus	32.37	32.44	38.59	34.42	43.50	27.97	22.96	23.62	52.32	25.42	25.14	66.91	15.93	35.25	41.06	36.07	37.50	40.67	35.40	34.24
Qwen-VL-Max	41.34	42.16	50.59	47.23	74.00	40.68	29.03	26.71	58.94	34.05	62.29	85.45	27.80	44.39	43.90	42.99	48.61	49.38	51.13	40.52
GPT-4V	42.50	44.08	64.00	44.95	58.50	42.45	30.03	29.40	58.28	32.31	54.57	83.27	37.63	48.26	49.04	48.41	44.60	51.87	53.98	40.89
Gemini 1.0	44.38	44.93	57.41	46.25	57.50	36.40	28.67	27.80	45.03	38.21	58.57	86.55	40.68	51.74	47.45	55.64	50.46	47.83	61.58	41.87
Gemini 1.5	47.42	48.36	55.29	50.81	54.00	51.05	36.59	29.86	56.95	36.88	58.00	88.00	47.46	48.13	51.19	56.88	64.51	56.50	59.78	31.65
GPT-4o	53.53	53.96	66.82	48.53	64.50	55.94	35.10	48.53	74.17	43.52	64.57	91.64	37.63	57.88	55.21	62.80	66.98	58.39	64.60	46.18

Model name	Size	Overall (val)	Overall (test)	Seg C	Seg M	2D Cls update	2D Det	2D Mcls_acc	2D Mcls_recall
Random	-	25.70	25.88	22.19	22.91	28.93	24.55	45.85	57.02
Medical Special Model
MedVInT	-	2.29	1.98	0.82	0.25	3.48	0.12	0.05	0.02
Med-Flamingo	8.3B	12.74	11.75	11.95	11.94	11.92	9.15	46.10	50.19
LLaVA-Med	-	20.54	19.83	18.45	18.97	21.15	17.14	45.84	41.19
Qilin-Med-VL-Chat	-	22.34	22.06	19.84	20.30	23.80	21.87	44.50	33.90
RadFM	14B	22.95	22.93	20.43	20.27	25.71	18.83	40.98	57.45
MedDr	40B	41.95	43.18	42.55	44.03	45.08	28.10	48.09	23.38
Open-Source LVLMs
CogVLM-grounding-generalist	17B	5.20	5.39	6.80	5.51	5.11	2.57	46.24	49.82
XComposer	8B	8.92	7.71	8.87	6.24	8.02	6.30	31.45	23.68
PandaGPT 13B	13B	16.69	15.94	19.25	18.88	13.74	12.24	41.22	49.95
Flamingo v2	9B	25.58	26.23	22.52	22.48	30.12	21.17	41.80	19.17
VisualGLM-6B	7.8B	29.58	30.20	27.30	27.31	33.75	22.16	43.08	35.22
Idefics-9B-Instruct	9B	29.74	30.81	25.50	25.21	36.45	23.85	43.47	46.02
InstructBLIP-7B	8B	31.80	31.00	29.12	21.77	36.71	24.08	39.43	23.79
Mini-Gemini-7B	7B	32.17	31.22	32.13	32.92	30.72	26.53	45.38	57.99
MMAlaya	7.8B	32.19	32.02	29.33	30.22	35.02	24.02	48.43	20.93
Qwen-VL	9.6B	34.80	35.55	33.20	33.43	38.95	24.49	44.95	56.97
Yi-VL-6B	6.6B	34.82	34.00	31.42	32.26	37.15	24.31	50.25	44.32
LLaVA-NeXT-vicuna-7B	7.1B	34.86	35.59	33.06	32.95	38.96	27.06	44.75	42.45
Qwen-VL-Chat	9.6B	35.07	36.35	34.45	35.20	39.55	22.04	42.88	81.23
CogVLM-Chat	17B	35.23	35.83	34.13	34.49	38.55	25.25	47.09	90.26
Monkey	9.8B	35.48	35.92	33.18	34.01	39.32	25.42	44.57	42.35
mPLUG-Owl2	8.2B	35.62	35.89	33.68	34.74	38.80	24.90	42.59	41.84
ShareCaptioner	8B	36.37	36.07	34.74	35.93	38.25	24.37	40.00	16.95
Emu2-Chat	37B	36.50	35.54	36.54	27.62	39.57	27.76	44.29	37.65
XComposer2-4KHD	7B	36.66	37.93	36.84	38.02	39.84	26.65	48.83	44.08
ShareGPT4V-7B	7.2B	36.71	36.52	34.74	35.15	39.24	26.18	46.11	43.52
LLaVA-NeXT-mistral-7B	7.6B	37.20	37.02	36.29	35.20	39.34	27.87	44.05	47.70
LLAVA-V1.5-13b-xtuner	13.4B	37.82	38.27	38.29	36.95	40.48	25.83	47.54	33.19
OmniLMM-12B	12B	37.89	38.74	36.70	36.86	41.77	28.57	46.17	43.01
InternVL-Chat-V1.1	19B	38.16	38.93	38.54	40.00	40.07	28.16	39.82	27.32
LLAVA-V1.5-7B	7.2B	38.23	37.72	36.45	36.65	40.38	25.36	14.10	57.09
Monkey-Chat	9.8B	38.39	39.00	37.16	37.75	42.13	25.36	43.91	28.86
LLAVA-V1.5-7B-xtuner	7.2B	38.68	37.96	36.75	36.34	40.55	27.52	46.78	43.06
XComposer2	7B	38.68	38.95	37.86	38.52	41.00	28.34	46.43	51.87
LLAVA-InternLM-7b	7.6B	38.71	38.84	37.57	36.65	41.84	27.46	50.02	40.21
TransCore-M	13.4B	38.86	38.43	36.09	36.06	42.04	26.53	45.34	40.93
InternVL-Chat-V1.5	25.5B	38.86	39.32	38.61	40.48	40.45	29.27	31.51	24.72
InternVL-Chat-V1.2-Plus	40B	39.41	40.25	40.68	41.50	40.82	30.38	36.50	37.09
InternVL-Chat-V1.2	40B	39.52	39.57	39.04	39.75	41.05	29.62	41.08	46.06
LLAVA-InternLM2-7b	8.1B	40.07	40.15	39.30	39.14	42.60	27.76	50.64	48.25
DeepSeek-VL-1.3B	1.3B	40.25	40.54	40.61	40.71	42.13	27.64	48.71	21.38
MiniCPM-V	2.8B	40.95	40.89	39.48	39.18	44.08	27.00	42.87	32.09
DeepSeek-VL-7B	7.3B	41.73	42.90	43.87	43.60	44.32	26.59	44.16	18.74
MiniCPM-V2	2.8B	41.79	42.13	41.11	41.41	45.03	25.95	50.12	32.62
Proprietary LVLMs
Claude3-Opus	-	32.37	32.24	33.56	33.36	32.17	24.72	45.31	38.98
Qwen-VL-Max	-	41.34	41.70	44.23	44.42	41.09	29.10	31.12	25.88
GPT-4V	-	42.50	43.61	47.87	46.58	42.24	30.32	45.21	40.59
Gemini 1.0	-	44.38	44.65	44.92	44.96	46.67	27.46	49.01	55.09
Gemini 1.5	-	47.42	48.03	54.75	56.59	43.25	34.17	39.22	39.34
GPT-4o	-	53.53	53.88	57.09	56.49	53.70	36.21	50.60	50.90