🗒️InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

date
icon
password
Sub-item
Blocked by
Parent item
type
status
slug
summary
tags
category
Blocking
 
好东西,但也真能水,翻来覆去这么几句车轱辘话

Abstract

  • first benchmark specifically designed to evaluate LLM-based agents on data analysis tasks.
  • This benchmark contains DAEval,
    • a dataset consisting of 257 data analysis questions derived from 52 CSV files,
    • an agent framework which incorporates LLMs to serve as data analysis agents for both serving and evaluation.

1 Introduction

open-source agents for data analysis
  • Open Interpreter (Lucas, 2023)
  • Open Agents (Xie et al., 2023)
  • Qwen-Agent (Bai et al., 2023
  • Taskweaver (Qiao et al., 2023).
 
 

4 Related works

  • web environments:
    • WebShop (Yao et al., 2022a
    •  WebArena (Zhou et al., 2023)
  • tool using
    • ToolBench (Qin et al., 2023b
    • Gentopia (Xu et al., 2023a)
  • Benchmarks for Code
    • CodeXGLUE (Lu et al., 2021)  for both code understanding and generation
    • DS-1000 (Lai et al., 2023). benchmark for code generation in data science.

2 InfiAgent-DABench Benchmark

 

2.1 Dataset Construction

 
Data construction steps:
  • Files Collection:
    • from Github
  • Description Generation
    • utilize GPT-3.5 to summarize the following information for each CSV file:
  • Open-ended Question Generation
 
  • Constraints and Format Requirements Generation
    • Considering closed-form questions can be easily evaluated,we introduce a format-prompting technique that prompts GPT-4 to generate detailed constraints and format requirements for open-ended questions to make them closed-form.
    • we conduct a experiment on GPT-4 auto-evaluating for above open-ended questions, which.show that GPT-4 could only achieve 67% consistency with human experts
  • Response Gathering
    • leverage OpenAI ADA to generate answers of closed-form questions. Each question is sent to ADA for 3 times.
 

2.2 Agent Framework

 

2.3 Human Assessment

We evaluate the quality of files, questions and labels. For each part, we define one or more metrics which are crucial for a data analysis dataset:
  • Suitableness
  • Reasonableness
  • Value
  • Restrictiveness
  • Alignment
  • Correctness

2.3.1 Dataset Quality

 

2.3.2 Human vs GPT-4

We found that GPT-4 generated questions take advantage on Restrictiveness, Alignment and Difficulty, and a slightly better performance on Reasonableness and Value, which indicates that DAEval are comparable with human-made dataset.
 
 

2.4 Benchmark Statistics

We split the dataset into validation set and test set. The validation set is open to public, including 257 questions with 52 csv files and the rest is for test set which is closed for avoiding data leakage.
notion image
notion image
 
notion image
 

2.5 Instruction-tuning Dataset

DAInstruct, an instruction-tuning dataset for data analysis. The collection of DAInstruct is carried out in three steps:
  1. Creating a diverse set of data analysis questions for CSV files
    1. notion image
  1. Collecting response trajectories to these questions through our agent framework
    1. notion image
  1. Filtering low-quality samples with rules and GPT-4
    1. notion image
 
 

3. Experiments

steps:
  1. prompt the agent with the file, the question and constraints.
  1. The agent answers with the calling of external Python sandbox
  1. we use GPT-3.5 to reformat the response into format requirements
  1. use regular expression matching to draw the answer and compare it with the label.
notion image
 

3.1 Setup

3.1.1 Models

 
 

3.1.2 Implementation Details

We first prompt LLMs with the file, question and constraints.
Considering that most models hardly follow the format requirements exactly, we add a reformat step after the original responses which formats the responses with the format requirements with one-shot prompting.
 
 

3.2 Results

 

3.3 Findings

 
2. InfiAgent-DABench基准
InfiAgent-DABench基准旨在评估LLM代理在数据分析任务中的表现,主要包括两个组件:DAEval评估数据集和代理框架。
2.1 数据集构建
DAEval数据集由真实的CSV文件及相应的问题组成。作者从GitHub上收集了52个CSV文件,确保主题多样性并避免数据重复。然后,使用GPT-4根据文件描述和从专家访谈中获得的数据分析关键概念生成开放式问题。为了便于自动评估,作者采用格式提示技术,将开放式问题转换为封闭式格式,生成详细的约束和格式要求,使问题具有唯一答案,便于解析和匹配。整个数据集经过人类专家的严格评估,确保高质量。
2.2 代理框架
为了支持LLM在数据分析任务中的表现,作者构建了一个代理框架,允许LLM在代理设置中解决数据分析问题。该框架采用ReAct方法,代理根据问题计划、编写代码、调用Python沙箱执行,并总结输出以解决问题。最终答案被重新格式化为特定格式,并与封闭式标签匹配。
2.3 人工评估
为了确保数据集的质量,作者进行了全面的人工评估。评估包括数据集质量评估和人类与GPT-4的比较。在数据集质量评估中,专家从多个维度严格检查数据集,过滤掉所有不合格的样本。在人类与GPT-4的比较中,评估了人类和GPT-4在数据分析任务中的表现差异。
2.4 基准统计
DAEval数据集包含257个问题,涉及52个CSV文件,涵盖现实的数据分析需求和广泛的领域。这些问题根据从专家访谈中获得的关键概念生成,确保数据集的多样性和代表性。
2.5 指令微调数据集
为了促进开源LLM在数据分析代理能力方面的构建,作者开发了一种自动化方法,构建了一个名为DAInstruct的指令微调数据集。该数据集基于数据分析关键词和真实的CSV文件构建指令,然后使用代理框架和GPT-4生成这些指令的响应。通过在该数据集上训练开源LLM,作者进一步开发了专注于数据分析的代理DAAgent。
3. 实验
3.1 设置
作者评估了34个最先进的LLM,发现它们在处理数据分析任务时仍面临挑战。此外,作者开发了DAAgent,一个专门的代理,专注于数据分析任务。DAAgent在DAInstruct上进行训练,表现优于GPT-3.5,提升了3.9%。
3.2 结果
实验结果表明,当前的LLM在数据分析任务中仍面临挑战。然而,DAAgent在DAInstruct上进行训练后,表现优于GPT-3.5,提升了3.9%。
3.3 发现
作者的研究揭示了当前LLM在数据分析任务中面临的挑战,并强调了开发专门代理以提高性能的重要性。
4. 相关工作
在数据分析任务中评估基于大型语言模型(LLM)的代理性能,涉及多个相关领域的研究。
4.1 代码生成基准
现有的代码生成基准,如HumanEval、MBPP和DS-1000,主要评估模型的代码补全能力。然而,这些基准通常不适用于评估需要复杂能力(如任务规划、自我调试)的LLM代理。例如,DS-1000仅要求模型插入或完成小部分代码片段,无法全面评估代理在数据分析任务中的表现。
4.2 工具使用基准
一些研究关注LLM在使用工具时的表现。例如,ToolBench和Gentopia评估LLM在调用真实世界API时的能力。然而,这些基准主要关注工具使用,而非数据分析任务的综合能力。
4.3 数据分析代理
随着LLM代理概念的发展,研究人员开始探索其在数据分析任务中的应用。OpenAI的高级数据分析(ADA)允许用户上传数据文件,并在沙箱中运行LLM生成的代码进行数据分析。此外,开源社区也开发了多个数据分析代理,如Open Interpreter、Open Agents、Qwen-Agent和TaskWeaver。这些代理的快速发展,突显了提出专门基准评估其性能的紧迫性和重要性。
5. 局限性与未来工作
InfiAgent-DABench目前未包含与数据可视化相关的问题。在专家访谈中,作者认识到可视化在数据分析中的关键作用。然而,设计封闭式的可视化问题具有挑战性,因为结果通常是图形而非文本。未来的研究可以考虑以下两种评估方法:
  1. 代码正确性评估:此方法允许使用仅支持文本的LLM进行评估,但可能导致不准确。在数据分析任务中,主要目标是生成准确的可视化表示,而不仅仅是底层代码。仅评估代码可能难以精确评估某些情况下的可视化效果。
  1. 使用多模态模型评估:例如,Qwen-Agent利用视觉-语言模型(如GPT-4 Vision)作为评估器。此方法直接评估视觉输出的准确性。然而,当前的多模态模型性能尚未达到理想状态,且成本较高,可能导致对数据可视化的评估不够理想。
未来的研究应致力于开发精确且方便的可视化评估方法,以完善数据分析任务的评估体系。
6. 结论
本文介绍了InfiAgent-DABench,这是首个专门用于评估LLM代理在数据分析任务中表现的基准。通过对23个最先进的LLM的广泛基准测试,作者发现当前模型在有效处理数据分析任务时仍面临挑战。此外,作者开发了DAAgent,一个专门用于数据分析的代理,并在DAInstruct上进行训练。作者的贡献不仅为评估LLM代理在数据分析中的表现提供了有价值的基准,也为理解这些模型在该领域的当前能力和局限性提供了见解。
上一篇
GPU硬件-浮点数
下一篇
生活记录
Loading...
文章列表
个人站点-主NLP
欧洲史
开发工具
Linux
计算机软件
DL-训练
历史-欧洲史
历史-中国史
中国史
DL-公式推导
DL-算法原理
DL-工程化
计算机硬件
可解释性
LLM-基础
传统NLP
社会运转
训练框架
Benchmark
生活记录
技术报告
强化学习