编程之美之2.5 寻找最大的K个数

【题目】

有很多无序的数,从中找出最大的K个数。假定他们都不相等。

【解法一】

如果数据不是很多,例如在几千个左右,我们可以排一下序,从中找出最大的K个数。排序可以选择快速排序或者堆排序

[cpp] view
plain
copy

  1. #include<stdio.h>  
  2. #include<stdlib.h>  
  3. int cmp(const void *a,const void *b){  
  4.     return *(int *)a - *(int *)b;  
  5. }  
  6. int main(){  
  7.     int n,k;  
  8.     int Num[1000];  
  9.     while(scanf("%d %d",&n,&k) != EOF){  
  10.         //输入数据  
  11.         for(int i = 0;i < n;i++){  
  12.             scanf("%d",&Num[i]);  
  13.         }  
  14.         //排序  
  15.         qsort(Num,n,sizeof(Num[0]),cmp);  
  16.         //选出最大的K个数  
  17.         for(i = n-k;i < n;i++){  
  18.             printf("%d ",Num[i]);  
  19.         }  
  20.         printf("\n");  
  21.     }  
  22.     return 0;  
  23. }  

【解法二】

我们可以继续对上面的算法进行优化,我们只是从这些无序的数中选出最大的K个数,并不需要前K个数据有序,也不需要后N-K个数据有序。

怎样才能避免做后N-K个数据有序呢?

回忆一下快速排序,快排中的每一步,都是将待排数据分做两组,其中一组的数据的任何一个数都比另一组中的任何一个大,然后再对两组分别做类似的操
作,然后继续下去……在本问题中,假设 N 个数存储在数组 S 中,我们从数组 S 中随机找出一个元素 X,把数组分为两部分 Sa 和 Sb。

Sa 中的元素大于等于 X,Sb 中元素小于 X。这时,有两种可能性:
1.   Sa中元素的个数小于K,Sa中所有的数和Sb中最大的K-|Sa|个元素(|Sa|指Sa中元素的个数)就是数组S中最大的K个数。
2.   Sa中元素的个数大于或等于K,则需要返回Sa中最大的K个元素。

这样递归下去,不断把问题分解成更小的问题,平均时间复杂度 O(N *log2K)。

[cpp] view
plain
copy

  1. #include<stdio.h>  
  2. #include<stdlib.h>  
  3. //进行一次快速排序用哨兵数分割数组中的数据  
  4. int Partition(int a[],int low,int high){  
  5.     int i,j,index;  
  6.     i = low;  
  7.     j = high;  
  8.     //哨兵  
  9.     index = a[i];  
  10.     while(i < j){  
  11.         //从右向左找大于index的数来填a[i]  
  12.         while(a[j] < index && i < j){  
  13.             j--;  
  14.         }  
  15.         //把找到大于index的数赋值给a[i]  
  16.         if(i < j){  
  17.             a[i] = a[j];  
  18.             i++;  
  19.         }  
  20.         //从左向右找小于index的数来填a[j]  
  21.         while(a[i] >= index && i < j){  
  22.             i++;  
  23.         }  
  24.         //把找到小于index的数赋值给a[j]  
  25.         if(i < j){  
  26.             a[j] = a[i];  
  27.             j--;  
  28.         }  
  29.     }  
  30.     a[i] = index;  
  31.     return i;  
  32. }  
  33. int KBig(int a[],int low,int high,int k){  
  34.     int index,n;  
  35.     if(low < high){  
  36.         //对数组进行划分,返回划分的位置  
  37.         index = Partition(a,low,high);  
  38.         n = index - low + 1;  
  39.         //如果等于K返回第K个下标  
  40.         if(n == k){  
  41.             return index;  
  42.         }  
  43.         //不够K个再找k-n个  
  44.         else if(n < k){  
  45.             return KBig(a,index+1,high,k-n);  
  46.         }  
  47.         //如果大于K个则从些中选出最大的K个  
  48.         else{  
  49.             return KBig(a,low,index,k);  
  50.         }  
  51.     }  
  52. }  
  53.   
  54. int main(){  
  55.     int a[] = {4,5,1,6,2,7,3,8};  
  56.     for(i = 0;i <= KBig(a,0,7,6);i++){  
  57.         printf("%d ",a[i]);  
  58.     }  
  59.     printf("\n");  
  60.     return 0;  
  61. }  

【解法三】

用容量为K的最小堆来存储最大的K个数。最小堆的堆顶元素就是最大K个数中的最小的一个。每次扫描一个数据X,如果X比堆顶元素Y小,则不需要改变原来的堆,因为这个元素比最大的K个数要小。如果X比堆顶元素大,那么用X替换堆顶元素Y,在替换之后,X可能破坏了最小堆的结构,需要调整堆来维持堆的性质。调整过程时间复杂度为O(logK)。

当数据量很大时(100亿?这时候数据已经不能全部装入内存,所以要求尽可能少的遍历数组)可以采用这种方法。

[cpp] view
plain
copy

  1. #include<stdio.h>  
  2. #include<stdlib.h>  
  3.   
  4. //调整以index为根的子树  
  5. //k:堆中元素个数  
  6. int MinHeap(int a[],int index,int k){  
  7.     int MinIndex = index;  
  8.     //左子节点  
  9.     int LeftIndex = 2*index;  
  10.     //右子节点  
  11.     int RightIndex = 2*index+1;  
  12.     if(LeftIndex <= k && a[LeftIndex] < a[MinIndex]){  
  13.         MinIndex = LeftIndex;  
  14.     }  
  15.     if(RightIndex <= k && a[RightIndex] < a[MinIndex]){  
  16.         MinIndex = RightIndex;  
  17.     }  
  18.     //如果a[index]是最小的,则以index为根的子树已是最小堆否则index的子节点有最小元素  
  19.     //则交换a[index],a[MinIndex],从而使index及子女满足堆性质  
  20.     int temp;  
  21.     if(MinIndex != index){  
  22.         //交换a[index],a[MinIndex]  
  23.         temp = a[index];  
  24.         a[index] = a[MinIndex];  
  25.         a[MinIndex] = temp;  
  26.         //重新调整以MinIndex为根的子树  
  27.         MinHeap(a,MinIndex,k);  
  28.     }  
  29.     return 0;  
  30. }  
  31.   
  32.   
  33. //建堆:将一个数组a[1-k]变成一个最小堆  
  34. int BuildMinHeap(int a[],int k){  
  35.     int i;  
  36.     //用容量为k的最小堆来存储最大的k个数  
  37.     for(i = k;i >= 1;i--){  
  38.         //调整以i为根节点的树使之成为最小堆  
  39.         MinHeap(a,i,k);  
  40.     }  
  41.     return 0;  
  42. }  
  43.   
  44. int main(){  
  45.     int n = 6;  
  46.     int k = 3;  
  47.     //a[0]不用,堆的根结点是从1开始的  
  48.     int a[] = {0,3,17,8,27,7,20};  
  49.     //BulidMaxHeap将输入数组构造一个最小堆  
  50.     BuildMinHeap(a,k);  
  51.     //数组中最小元素在根a[1]  
  52.     for(int i = n;i > k;i--){  
  53.         //如果X比堆顶元素Y小,则不需要改变原来的堆  
  54.         //如果X比堆顶元素Y大,那么用X替换堆顶元素Y,在替换之后,X可能破坏了最小堆的结构,需要调整堆来维持堆的性质  
  55.         int temp;  
  56.         if(a[1] < a[i]){  
  57.             //交换  
  58.             temp = a[i];  
  59.             a[i] = a[1];  
  60.             a[1] = temp;  
  61.             //重新调整,保持最小堆的性质  
  62.             MinHeap(a,1,k);  
  63.         }  
  64.     }  
  65.     for(i = 1;i <= k;i++){  
  66.         printf("%d ",a[i]);  
  67.     }  
  68.     return 0;  
  69. }  

如果不明白堆的用法,可以参考:堆排序

堆排序中主要讲解最大堆,最大堆和最小堆几乎一样。自己看看就知道了。

【解法四】

这个方法受到一定的限制。

如果所有N个数都是正整数,而且取值范围都不太大。可以考虑申请空间,记录每个整数出现的次数,然后再从大到小取最大的K个。

[cpp] view
plain
copy

  1. #include<stdio.h>  
  2. #include<string.h>  
  3.   
  4. const int MaxN = 100;  
  5. int count[MaxN];  
  6.   
  7. int main(){  
  8.     int k = 3;  
  9.     int a[] = {3,17,8,27,7,20};  
  10.     memset(count,0,MaxN);  
  11.     //统计每个数重复次数  
  12.     for(int i = 0;i < 6;i++){  
  13.         count[a[i]]++;  
  14.     }  
  15.     //选取最大K个数  
  16.     int sumCount = 0;  
  17.     for(i = MaxN;i >= 0;i--){  
  18.         sumCount += count[i];  
  19.         if(sumCount >= k){  
  20.             break;  
  21.         }  
  22.     }  
  23.     //输出  
  24.     int index = i;  
  25.     for(i = index;i < MaxN;i++){  
  26.         if(count[i] > 0){  
  27.             printf("%d ",i);  
  28.         }  
  29.     }  
  30.     printf("\n");  
  31.     return 0;  
  32. }  
时间: 2024-12-28 15:33:21

编程之美之2.5 寻找最大的K个数的相关文章

O(N)的时间寻找最大的K个数

寻找N个数中最大的K个数,本质上就是寻找最大的K个数中最小的那个,也就是第K大的数. 可以使用二分搜索的策略来寻找N个数中的第K大的数.对于一个给定的数p,可以在O(N)的时间复杂度内找出所有不小于p的数. 寻找第k大的元素: #include <iostream> using namespace std; //快速排序的划分函数 int partition(int a[],int l,int r) { int i,j,x,temp; i = l; j = r+1; x = a[l]; //将

寻找最小的k个数

题目描述 输入n个整数,输出其中最小的k个. 分析与解法 解法一 要求一个序列中最小的k个数,按照惯有的思维方式,则是先对这个序列从小到大排序,然后输出前面的最小的k个数. 至于选取什么的排序方法,我想你可能会第一时间想到快速排序(我们知道,快速排序平均所费时间为  n*logn  ),然后再遍历序列中前k个元素输出即可.因此,总的时间复杂度:  O(n * log n)+O(k)=O(n * log n)  . 解法二 咱们再进一步想想,题目没有要求最小的k个数有序,也没要求最后n-k个数有序

寻找最大的K个数,Top K问题的堆实现

//生成随机的不重复的测试数据 #include <iostream> #include <time.h> #include <assert.h> using namespace std; //产生[l,u]区间的随机数 int randint(int l, int u) { return l+(RAND_MAX*rand()+rand())%(u-l+1); } //1000W的int,大约4M的数据,如果放在mian内,在我的机子上好像是栈溢出了,放在全局空间就没问

JAVA中寻找最大的K个数解法_java

这个题拿到之后首先会想到排序,排好序之后在选取选取最大的K个数.排序选择快速排序是个比较好的选择.好了,让我们来进行第一个解法:快速排序代码如下 复制代码 代码如下: public static void quickSort(int[] arr, int start, int end) {  if (start < end) {   int key = arr[start];   int right = start;   int left = end;   while (right < lef

寻找最小的k个数(四种方法)

1 使用从大到小的优先队列保存最小的K个数,每次取出K个数之后的其余数和堆顶元素比较,如果比堆顶元素小,则将堆顶元素删除,将该元素插入 void topK(int arr[],int n,int k) { if(k>n) return; priority_queue<int> q; for(int i=0;i<n;++i) { if(q.size()<k) q.push(arr[i]); else { if(arr[i]<q.top()) { q.pop(); q.pu

2013编程之美全国挑战赛第二场-集会

昨天做编程之美的题感觉只有这一道是水题.思路没问题但是写程序写错了一个地方没AC.今天翻出来想了一下终于解决了. 解题思路: 要寻找的这个目标点的纵坐标为0,设横坐标为x.以示例数据为例,可以得到目标点到这些点的距离,更直观一点,绘制成图形点击查看.观察可知符合要求的点可能出现的位置是某两个抛物线的交点或者某个抛物线的顶点.求出这些点来比较计算出的距离,取最小的即可.没机会提交的代码如下: import java.util.Scanner; public class Main { public

图书推荐:《编程之美——微软技术面试心得》

问题描述 想知道微软面人的内幕吗?--<编程之美--微软技术面试心得>通过分析微软面试中经常出现的题目,给您解答微软面试疑惑.写程序真的没有意思?为什么许多微软的员工乐此不疲?--<编程之美--微软技术面试心得>将告诉您:编程和生活一样是富于激情和艺术性的!<编程之美>一书中包含了约60道算法和程序设计的题目,是微软的工程师写的.这些题目大部分在近年的笔试,面试中出现过,或者是被微软员工热烈讨论过.作者试图从书中各种有趣的问题出发,引导读者发现问题,分析问题,解决问题,

编程之美之字符串移位包含问题

[题目] 给定两个字符串s1和s2,要求判断s2是否能够被通过s1做循环移位(rotate)得到的字符串包含.例如,S1=AABCD和s2=CDAA,返回true:给定s1=ABCD和s2=ACBD,返回false. [分析] [思路一] 从题目中可以看出,我们可以使用最直接的方法对S1进行循环移动,再进行字符串包含的判断,从而遍历其所有的可能性. 字符串循环移动,时间复杂度为O(n),字符串包含判断,采用普通的方法,时间复杂度为O(n*m),总体复杂度为O(n*n*m). 字符串包含判断,若采

2013编程之美资格赛总结

终于可以完成一个程序比赛的题目了,虽然这次的时间有些长.这是第一次完成,感到真心不错.参加程序比赛是受舍友的影响,但很快就喜欢上了.但,从前不见第一次参加程序比赛--腾讯的编程马拉松,一个题不会,连提交代码的心思都没有.到第二次,参加百度的百度之星,百度之星参加了两次区域赛,第一次做的唯一一道题连题意都没有明白,结果不言而喻,失败:第二次区域赛,明白了题意,写出来代码,但提交结果还是失败,因为没有对于大数据进行思考.这就是参加的两次比赛的情况.这是第三次参加,是微软的编程之美,依据现在的结果,感