해시_베스트 앨범_Python
문제 설명
스트리밍 사이트에서 장르 별로 가장 많이 재생된 노래를 두 개씩 모아 베스트 앨범을 출시하려 합니다. 노래는 고유 번호로 구분하며, 노래를 수록하는 기준은 다음과 같습니다.
- 속한 노래가 많이 재생된 장르를 먼저 수록합니다.
- 장르 내에서 많이 재생된 노래를 먼저 수록합니다.
- 장르 내에서 재생 횟수가 같은 노래 중에서는 고유 번호가 낮은 노래를 먼저 수록합니다.
노래의 장르를 나타내는 문자열 배열 genres와 노래별 재생 횟수를 나타내는 정수 배열 plays가 주어질 때, 베스트 앨범에 들어갈 노래의 고유 번호를 순서대로 return 하도록 solution 함수를 완성하세요.
제한사항
- genres[i]는 고유번호가 i인 노래의 장르입니다.
- plays[i]는 고유번호가 i인 노래가 재생된 횟수입니다.
- genres와 plays의 길이는 같으며, 이는 1 이상 10,000 이하입니다.
- 장르 종류는 100개 미만입니다.
- 장르에 속한 곡이 하나라면, 하나의 곡만 선택합니다.
- 모든 장르는 재생된 횟수가 다릅니다.
입출력 예
입출력 예 설명
classic 장르는 1,450회 재생되었으며, classic 노래는 다음과 같습니다.
- 고유 번호 3: 800회 재생
- 고유 번호 0: 500회 재생
- 고유 번호 2: 150회 재생
pop 장르는 3,100회 재생되었으며, pop 노래는 다음과 같습니다.
- 고유 번호 4: 2,500회 재생
- 고유 번호 1: 600회 재생
따라서 pop 장르의 [4, 1]번 노래를 먼저, classic 장르의 [3, 0]번 노래를 그다음에 수록합니다.
접근 방법
먼저, 많이 재싱된 장르를 먼저 수록하고 장르 내에서 재생횟수가 많은 것을 먼저 수록해야한다.
처음엔 enumerate 함수를 사용해 인덱스를 함께 이용해 풀려고했으나
장르/ 재생횟수 별로 각각 딕셔너리를 새로 할당하여 풀이하였다.
장르 딕셔너리의 경우 딕셔너리를 구성하는게 어렵지 않지만
재생횟수의 경우 동일 Key 값으로 2개 이상의 값을 저장하지 못하는 딕셔너리(해시)의 특성을 고려하여
값으로 튜플 요소를 갖는 리스트를 만들어주는게 첫 번째 핵심인것 같다.
# print(dict_genres)
# {'classic': 1450, 'pop': 3100}
# print(dict_plays)
# {'classic': [(500, 0), (150, 2), (800, 3)], 'pop': [(600, 1), (2500, 4)]}
먼저, 가장 많은 재생 횟수를 지닌 장르를 먼저 수록한다.
이때 key=람다로 정렬값을 컨트롤하는게 두 번째 핵심!
람다는 익숙하지 않아서 내림차순, 오름차순 정렬을 구현하는데 많은 자료를 찾아봐야했다.
장르 딕셔너리를 x[1] == 딕셔너리의 재생횟수 값을 기준으로 내림차순 정렬을 한다.
# 재생횟수 내림차순 정렬
sorted_plays_list = sorted(dict_genres.items(), key=lambda x:x[1], reverse=True)
# print(sorted_plays_list)
# [('pop', 3100), ('classic', 1450)]
이렇게 작성된 딕셔너리를 이용하여 재생횟수 딕셔너리를 재생횟수가 많은 것(내림)부터, 고유번호가 낮은것부터(오름) 정렬!!
재생 횟수 딕셔너리의 값(리스트)를 람다를 이용해 정렬한 값으로 수정한다.
각 장르별 높은 순, 최대 2개씩만 사용하여 answer에 인덱스가 추가 될 수 있도록 재생횟수 값(리스트) 만 반복
def solution(genres, plays):
answer = []
dict_genres = {}
dict_plays = {}
for i in range(len(genres)):
if genres[i] not in dict_plays:
dict_plays[genres[i]] = [(plays[i], i)]
else:
dict_plays[genres[i]] += [(plays[i], i)]
if genres[i] not in dict_genres:
dict_genres[genres[i]] = int(plays[i])
else:
dict_genres[genres[i]] += int(plays[i])
# print(dict_genres)
# {'classic': 1450, 'pop': 3100}
# print(dict_plays)
# {'classic': [(500, 0), (150, 2), (800, 3)], 'pop': [(600, 1), (2500, 4)]}
# 재생횟수 내림차순 정렬
sorted_plays_list = sorted(dict_genres.items(), key=lambda x:x[1], reverse=True)
# print(sorted_plays_list)
# [('pop', 3100), ('classic', 1450)]
# -x[0]의 마이너스는 내림차순을 의미
for (genre, plays) in sorted_plays_list:
# pop 먼저, 재생횟수(x[0])는 = 내림차순 정렬(-) , 인덱스(x[1])는 오름 차순 정렬(+)
# 따라서, 재생횟수가 많은 것부터, 횟수가 같을때는 고유번호가 낮은것 부터 정렬됨
"""
pop => [(600, 1), (2500, 4)]
classic =>[(500, 0), (150, 2), (800, 3)]
"""
dict_plays[genre] = sorted(dict_plays[genre], key = lambda x: (-x[0], x[1]))
"""
print(dict_plays)
{'classic': [(500, 0), (150, 2), (800, 3)], 'pop': [(600, 1), (2500, 4)]}
{'classic': [(500, 0), (150, 2), (800, 3)], 'pop': [(2500, 4), (600, 1)]}
{'classic': [(800, 3), (500, 0), (150, 2)], 'pop': [(2500, 4), (600, 1)]}
"""
#각 장르별 높은 순, 최대 2개씩만 사용하기에 dict_plays[장르별] 값(현재 리스트) 2개만 사용함.
for plays, idx in dict_plays[genre][:2]:
answer.append(idx)
return answer
시간 복잡도
장르와 길이와 재생횟수의 길이는 같기에
장르(리스트)의 요소의 개수를 N이라 할때
첫번째 for문 => O(N)
파이썬의 sorted 함수 O(N logN)
두번째 for문 =>(1/2 * N^2 logN)
전체적으로 상수를 모두 제외하여, O(N^2logN)이 아닐까 싶다.