기본 콘텐츠로 건너뛰기

#1 Langchain Document basis chatbot server like the ChatPDF 랭체인으로 ChatPDF같은 문서기반 챗봇서버 만들기 (GPT API + PDF, CSV + Python)

 회사의 expense policy 와 Members list를 토대로 경영지원팀에게 올 수 있는 다양한 질문에 대응하는 챗봇을 만들어보고 싶었다.

 처음에는 Python 과 Slack 채널 실시간 연동을 먼저 구성하고 잘 오고가는게 보이면 그 때 추가 작업을 해야겠다고 생각하며 진행하다보니,  아무래도 진행이 잘 안되기도 하고.. 최근에 www.recipegarden.live 라는 AI가 밥차려주는 웹페이지? 를 론칭하게 되어서 바쁘다보니 신경을 못썼다. 그러던 와중에 Langchain 이라는 녀석을 사용하는 유튜버의 게시물을 발견했는데, 덕분에 아주 편하게 만들어 볼 수 있게 되었다. 


 일단 python 모듈 구성은 이렇다.

1. OpenAI ( ChatGPT 3.5를 사용했다. )

2. PyPDF (PDF를 읽어주는 녀석)

3. Langchain (각종 데이터를 AI에게 일목요연하게 알아서 잘 전달해주는 중간매개채.)

3. Flask (Python 으로 서버 구동)

4. Pandas (csv파일 분석을 위한 데이터 프레임)


코드 구성은

A. PDF 기능 

    1. 먼저 API 키를 입력해주고, PDF 파일을 읽어서 텍스트로 특정 변수에 담아준다.

    2. 1에서 담아둔 텍스트는 랭체인으로 요약한다.

    3. 랭체인에게 참조할 텍스트를 지정하고 질문과 함께 전달하면

    4. OpenAI GPT-3.5로부터 들은 답변을 랭체인이 전달해준다.

B. Dataframe 변수에 csv 파일을 pandas 모듈을 사용해서 담아준다. (변수명 df)

    1. 마찬가지로 만능인 Langchain agent에게 pandas 데이터프레임을 기반으로 어떤 AI에게 어떤 데이터를 토대로 어떻게 진행할것인지 파라미터를 입력해서 전달하면 대답해준다.

C. 데이터, 파라미터를 flask서버에서 process_data 라는 함수로 받아서 처리하고 출력


코드는 다음과 같다. 

from flask import Flask, request, jsonify
import pandas as pd
from langchain.agents import create_pandas_dataframe_agent
from langchain.chains.question_answering import load_qa_chain
from langchain.chat_models import ChatOpenAI
from langchain.chains import AnalyzeDocumentChain
from langchain import OpenAI
from PyPDF2 import PdfReader
import os
from langchain.chains.summarize import load_summarize_chain

app = Flask(__name__)

# OpenAI API Key
os.environ["OPENAI_API_KEY"] = "[[ChatGPT API Key here]]"

# Preprocess a PDF file
reader = PdfReader("expense_rule.pdf")
raw_text = ""
for i, page in enumerate(reader.pages):
text = page.extract_text()
if text:
raw_text += text
raw_text = raw_text[:1000]

# Summarize 요약
llm = OpenAI(temperature=0)
summary_chain = load_summarize_chain(llm, chain_type="map_reduce")
summarize_document_chain = AnalyzeDocumentChain(combine_docs_chain=summary_chain)
summary_result = summarize_document_chain.run(raw_text)

# Question Answering 질문 답변
model = ChatOpenAI(model="gpt-3.5-turbo") # gpt-3.5-turbo, gpt-4
qa_chain = load_qa_chain(model, chain_type="map_reduce")
qa_document_chain = AnalyzeDocumentChain(combine_docs_chain=qa_chain)
qa_result = qa_document_chain.run(input_document=raw_text, question="출장비에는 주차료가 포함되나?")

# 엑셀, CSV 검색, Aggregation
df = pd.read_csv("test_members.csv")
agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True)
csv_result = agent.run("how many rows are there?")

# Flask 엔드포인트 정의
@app.route('/process_data', methods=['POST'])
def process_data():
# 전달된 데이터 받기
data = request.get_json()

# 데이터 처리
question = data.get('question')

# DataFrame
agent = create_pandas_dataframe_agent(OpenAI(temperature=0), df, verbose=True)
result = agent.run(question)

# 결과 반환
return jsonify({'result': result})

if __name__ == '__main__':
app.run(debug=True)

 

위 코드를 실행하면 이렇게 Flask 서버가 돌아간다. 



그리고 새로운 프로젝트에서 JSON 형태로 위와 같은 requests 값을 보내면 result를 전달해주는것을 확인할 수 있다. 


 이제부터 해야할 일은

1.  이 request가 슬랙 채널에서 올라오는 새로운 메시지의 내용이 들어가게 연결하고

2. flask 가 전달하는 result 값이 슬랙 채널에 쓰여지도록 하면 되겠다. 


이후 내용은 2부에서 이어서 작성 예정!

댓글

이 블로그의 인기 게시물

#1 (진행 중)아두이노 뇌파센서 헤드셋 만들기(Arduino EEG brain wave headset for psychological test) 만들어 뇌파 읽기

 15년 겨울쯤엔가 TED에서 흥미로운 동영상을 봤다. 뇌파를 통해 컴퓨터 안의 객체를 조종하는 모습을 시연하는 것이었다. 뇌파로 이런 것들이 가능하다는 것이 놀라웠다. 나는 심리학도가 아닌가. 뇌파가 더 정확한 심리검사를 만들 수 있는 도구가 될 수 있다는 생각이 들었다.  예를들어 검사문항(디지털 검사)이 100개짜리 라면 핵심 문항들(각 10번 단위)을 체크할 때마다 심경의 변화, 뇌파변화를 센서(객관적)도 기록하고 디지털검사(주관적)로도 기록해서 함께 데이터화 한다면 더 정확한 심경을 읽어 낼 수 있지 않을까? 라는 생각이었다. 2011년 대학원 다닐 때 컴공과 학부생들 겨울방학 특강으로 Objective-C를 무려1개월간 청강했고, C언어를 무려 2개월동안 학원에 다니면서 공부한 사람이기에 ! -_-;;;; 할 수 있을 것이다............  우선 뇌파센서를 구매해야겠지.  알리 익스프레스에서 구매한 EEG 뇌파센서 kit.  2개를 구매했다.비싸군 ㅠㅠ 배송이 한달정도 걸렸다. 학창시절 라디오 만들기인가..실과시간에 도전해본 납땜 이후로는 처음 해보는 납땜이어서 고생좀 했다. 뇌파를 측정해서 hex 코드로 컴퓨터로 읽어들일 수 있는 상태다. 읽어들인 hex값들을 10진수로 변환하고 유의미한 그래프로 그리거나 데이터화 하는 것이 필요 해 보이지만 아직 받은 값을 10진수로 변환하는 방법을 모르겠다. ㅠㅠ 소스코드는 그냥 단순히 hex값으로 읽어오는것이다보니.. 별거 없다;; 나중에 10진수로 변환하여 읽어들이고 자료화 하는 단계가 필요한 것 같은데 차근차근 진행 해 봐야겠다. 준비물 :  1. HM-08 블루투스 모듈 ($5.30) 2. 아두이노 나노 호환품 ($1.89) 3. direct nerosky e eg  brain...

1# (17.03.19 실패)파이썬(Python)을 활용해 사내식당 금일 메뉴 텔레그램 메세지로 전달받기

우리 사내식당 밥은 아주 맛있다. 맛이 없어서 그런건 아니고.. 그냥 미리 어떤 음식이 나오는지 알고싶을 뿐이다. 맛없는게 나오면 안먹고 라면을 먹기 위해서 만드는 것은 아니다. Brian Park 님의 블로그에서 초등학생 아들 알림장/급식메뉴를 텔레그램으로 알려주는 라즈베리파이 서버 관련 글을 읽고 처음으로 파이썬(웹프로그래밍 언어)에 도전하게 되었다. 의외로 스크립트언어? 사실 난 전문용어 잘 몰라유 ㅠㅠ 틀린게 있으면 바로잡아주세요 ㅠㅠ 처럼 순서대로 실행하고, C언어처럼 중괄호 개념이 아닌 들여쓰기로 구분..하는 것이 나에게는 심플하고 쉽게 느껴졌다. 물론 이런저런 명령어 외워야하는건 어쩔 수 없..ㅠ_ㅠ  아무튼 나의 특기인 따라하기 신공을 통해 맥에 python 2.7을 설치하고, 적절한 편집기로 eclipse를 골랐다. 나처럼 일자무식자가 단순 연습을 하기 위해서는 eclipse보다 그냥 python 기본 제공 앱(?)인 IDLE을 활용하여 코드 한 줄 한 줄이 어떻게 실행되고 왜 실행이 안되는지 확인 할 수 있어서 더 좋은 것 같다. 어쨋든, 삼성웰스토리에 신규 가입을 해서 아이디와 비밀번호를 알아 둔 뒤.. urllib, urllib2, cookielib 라는 라이브러리를 임포트하여 내가 읽어올 페이지 특정 부분에서 내 아이디와 비밀번호 전송값을 대입하여 처리하는.... 말해놓고 나니 무슨말인지...하아  뭐 그런 방식인 것 같다. urlencode가 핵심 키워드가 아닐까 싶다. 그래서~! 지금 아이디와 비번을 입력하여 접속된 화면이 출력되는 것 까지는 확인이 되었다. 이는, 아래에서  f=opener.open('https://www.samsungwelstory.com/member/login.jsp') for line in f: print line.strip() 부분에서처럼 사이트를 열고, 한줄씩 열거하여 보여달라고 요청하여 나온 값들과 사파리에서 소스보기 값들과...

#1 (완료) 아두이노 음주 측정기(Alcohol tester with Arduino)

음주운전을 하지 않는 가장 좋은방법은 대리운전 비용 1만원~1.2만원이 아깝지 않으면서 대리운전 전화번호를 누를 수 있는 정도의 취함 상태인 것 같다. 그래서 생각해본 아이디어가 아예 법적으로 차량에 의무적으로 장치를 설치하도록 하는데 이 장치는 차에 시동을 걸기 전 음주측정을 해야하고 정상 수치내에 있을때만 시동이 걸리는 장치!  물론 조수석에 앉을 누군가가 음주운전을 돕기 위해 대신불어준다면 안되겠지만..ㅠㅠ 아침 출근을 위해 정말 급하게 가글을 하고 나와 출근하려 시동을 걸었는데..가글액에 섞인 알코올 성분때문에 지각을 하는 경우도 생길 수 있겠다만.. 그래도 한번 만들어 보자. 어차피 내게는 차량과 연동할 기술적 지식이 아직 없으므로! 하하하하 06.13 진행 중이나 아직 정리가 안됨 07.01 에 05.28 진행 내용 추가 실제 경찰들 처럼 더더더~ 멘트로 몰입감+정확성(3회 불어서 나온수치의 평균을 활용하는 벙법)을 높일 수 있도록 개선하였다. -_-; Ready 상태. 이후 3,2,1 카운트 후 blow! 그리고 수치를 반복하여 깜빡이며 한다. 이하 소스코드 #include <LiquidCrystal.h> // initialize the library with the numbers of the interface pins LiquidCrystal lcd(12, 11, 5, 4, 3, 2); void setup() {   // set up the LCD's number of columns and rows:   lcd.begin(16, 2); } void loop() { lcd.setCursor(1, 0); //라인1로 커서 위치   lcd.print("Ready...");   delay(4000); lcd.clear();   // set the cursor to column 0, line 1   /...