본문 바로가기
DATABASE

Q. 리뷰내용 분석

by nyang2 2023. 11. 27.

필요 데이터:

데이터 모두 mydata002.dataset2 

리뷰 ➜ Review Text

카테고리➜ Department Name

나이 ➜ Age

 

조회방법

 

1. 'size' 가 포함된 리뷰이면 1 아니면 0으로 분류 ( 컬럼명 N_Size )

해석
case when 조건문을 이용하여 리뷰에 size 가 포함되어 있으면 1 아니면 0으로 분류한다.
size 가 포함되어 있는가? 를 표현할 때, like 연산자를 사용한다.
like 연산는 문자열의 패턴을 검색하여 일치하는지 확인해준다.

% : 0~무한대 까지의 문자
_ : 한글자

size 앞 뒤에는 다른 내용이 들어가 있어도 상관이 없기 때문에 %size% 로 비교하게 된다.

그리고 컬럼명은 N_size 로 설정한다.

 

 

2. 'size' 가 포함된 리뷰의 개수 파악

해석
(1) 번의 내용을 서브쿼리로 이용한다.
그리고 조건절을 이용하여 N_size 가 1인 컬럼만 즉, size 가 포함된 리뷰만 출력하도록 한다.
size 가 포함된 리뷰만 출력되도록 조건을 넣었기 때문에 count(*) 을 이용하면 size 가 포함된 리뷰의 개수를 파악할 수 있다.
count(*) 는 조회된 데이터 행의 총 건수를 의미한다.

 

 

3. 'size' 가 포함된 리뷰의 비율 조회

해석
size 가 포함된 리뷰를 모두 1로 변경해주었기 때문에 sum() 을 이용하면 size 가 포함된 리뷰의 갯수를 구할 수 있다.
비율을 구하기 위해서는 = size 포함 리뷰 / 전체 리뷰 를 해야한다.
sum(N_size) / count(*) 을 계산해준다.

 

 

4. 사이즈 관련 리뷰를 모두 찾아 계산 

사이즈 관련 리뷰 = size, large, loose, small, tight 가 포함된 리뷰

해석
각각의 단어들이 포함된 리뷰를 1로 바꾸어주고 sum() 집계함수를 이용하여 합을 구해준다.
그러면 각각의 단어별로 포함된 리뷰의 갯수가 나오게 된다.

 

 

5. (4) 번의 내용을 이용하여 비율로 변경

해석
비율로 변경하기 위해서는 = 특정 단어가 포함된 리뷰 / 전체 리뷰 수
를 계산해주면 된다. 그리고
% 로 구해주기 위해 *100 을 해준다.

 

 

6. 카테고리별, 연령별 사이즈 관련 리뷰 집계

해석
카테고리별, 연령별로 조회하기 위해 group by  를 이용하여 그룹화를 해준다.