概率统计 2024-11-27 21:06 采纳率: 40%

已结题

如何快速统计出一亿行由0和1组成的数字里面的1连续出现几次及标记后出现的次数？

如何快速统计出一亿行由0和1组成的数字里面的1连续出现几次及标记后出现的次数？请提供具体思路及代码。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

42条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
威哥说编程新星创作者: C#技术领域 2024-11-30 08:57
关注
任务概述

你需要统计一亿行由 0 和 1 组成的数字中，连续出现的 1 的次数，并且标记每次连续 1 出现后紧接着的数字是 0 的次数。也就是说，我们要找出连续的 1 的“段”以及这些段后跟随的 0 的个数。

这是一个典型的大数据处理任务。由于数据量巨大，我们的目标是设计一个 高效的算法，尽量减少内存消耗并提升计算速度。考虑到你可能在使用 C++ 和 Python，下面我会分别给出两种语言的实现思路及代码。

解决思路

逐行遍历输入数据：对每一行数据进行扫描，查找连续的 1 的区间。
统计连续 1 的段数：每次遇到一个连续的 1，就统计该段的长度。
标记该段后紧接的 0 的次数：一旦结束连续的 1 后，检查下一个数字是否为 0，并记录该 0 后出现的次数。
优化内存与计算：考虑到数据量很大，我们可以通过 流式处理 或 批量读取 来避免一次性加载整个数据集，同时利用 并行计算 来加速处理过程。

1. C++ 方案

1.1 思路

我们将逐行读取数字（0 或 1），并用一个简单的状态机来记录连续的 1 和后跟的 0。
每次遇到一个 1，就增加连续 1 的计数；每次遇到一个 0，如果当前连续的 1 数量大于 0，就记录当前段的数量。
使用 流式读取（逐行读取），并使用 内存映射（mmap）来处理大文件。
输出结果时，记录连续 1 的段数以及后面紧跟着 0 的数量。

1.2 C++ 代码示例

#include <iostream> #include <fstream> #include <vector> #include <string> using namespace std; // 统计连续 1 的段数及每段后跟随的 0 的次数 void count_consecutive_ones_and_zeros(const string& filename) { ifstream file(filename); string line; int total_one_segments = 0; // 连续 1 的段数 int total_zero_after_ones = 0; // 每段 1 后跟的 0 的次数 while (getline(file, line)) { int consecutive_ones = 0; bool in_one_segment = false; for (size_t i = 0; i < line.size(); ++i) { if (line[i] == '1') { if (!in_one_segment) { in_one_segment = true; total_one_segments++; // 开始一个新的连续 1 的段 } consecutive_ones++; } else { if (in_one_segment) { // 结束连续 1 的段，记录后面的 0 if (i + 1 < line.size() && line[i + 1] == '0') { total_zero_after_ones++; } } in_one_segment = false; consecutive_ones = 0; } } } cout << "Total segments of consecutive 1s: " << total_one_segments << endl; cout << "Total zeros following 1s: " << total_zero_after_ones << endl; } int main() { string filename = "big_data.txt"; // 输入文件名 count_consecutive_ones_and_zeros(filename); return 0; }

1.3 C++ 方案解释

读取数据：我们逐行读取文件，并对每行数据进行处理。
状态机：用一个布尔变量 in_one_segment 来标记是否当前正在遍历连续的 1。
统计：
每遇到一个新的连续 1 段，就增加 total_one_segments 计数器。
如果一个连续 1 后紧接着是 0，则增加 total_zero_after_ones 计数器。

输出结果：最后打印出结果：连续 1 的段数和每个段后跟的 0 的次数。

1.4 优化建议

内存映射（mmap）：对于极大文件，可以使用内存映射（mmap）来高效读取文件，不需要将整个文件加载到内存。
多线程：可以使用多线程来处理多个文件或多个数据块，从而加速处理过程。

2. Python 方案

2.1 思路

Python 可以利用 流式处理 来避免一次性将数据全部加载到内存。我们将逐行读取数字，使用类似的状态机方法来统计连续的 1 和后跟的 0 的次数。

2.2 Python 代码示例

def count_consecutive_ones_and_zeros(filename): total_one_segments = 0 # 连续 1 的段数 total_zero_after_ones = 0 # 每段 1 后跟随的 0 的次数 with open(filename, 'r') as file: for line in file: line = line.strip() # 去掉行尾换行符 in_one_segment = False for i in range(len(line)): if line[i] == '1': if not in_one_segment: in_one_segment = True total_one_segments += 1 # 新的连续 1 段 else: if in_one_segment and i + 1 < len(line) and line[i + 1] == '0': total_zero_after_ones += 1 # 连续 1 后面跟 0 in_one_segment = False print(f"Total segments of consecutive 1s: {total_one_segments}") print(f"Total zeros following 1s: {total_zero_after_ones}") if __name__ == "__main__": filename = "big_data.txt" # 输入文件名 count_consecutive_ones_and_zeros(filename)

2.3 Python 方案解释

读取数据：通过 open(filename) 逐行读取文件，避免将整个数据加载到内存。
状态机：用 in_one_segment 来标记是否当前在一个连续 1 的段中。
统计：
每次遇到一个新的连续 1 段时，增加 total_one_segments。
如果连续 1 后跟的是 0，则增加 total_zero_after_ones。

输出结果：最终打印出连续 1 的段数和后面紧跟的 0 的次数。

3. 性能考虑与优化

3.1 内存映射（Memory-mapped files）

对于非常大的数据集，可以使用内存映射方式来高效读取数据，避免每次读取都消耗大量的时间。在 C++ 中，使用 mmap，在 Python 中，可以使用 mmap 模块。

3.2 多线程 或 多进程 计算

如果计算非常耗时，可以考虑将数据分割成多个部分，使用多线程或多进程并行处理。
在 C++ 中，可以使用 std::thread，在 Python 中，可以使用 concurrent.futures.ThreadPoolExecutor。

3.3 批量读取 和 优化文件读取方式

对于非常大的文件，可以考虑使用文件的 批量读取 技术（例如，使用 readlines 或按块读取），避免每次读取一行。

4. 总结

通过流式读取和状态机方法，我们能够高效地统计一亿行由 0 和 1 组成的数字中连续出现的 1 的段数以及每段后跟的 0 的次数。这种方法避免了内存的浪费，适用于大规模数据的处理。同时，适当的优化（如多线程、内存映射）可以进一步提升计算性能。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(41条)

报告相同问题？

关注问题

直击高频编程考点：散列表知识及经典算法题总结
2022-10-27 20:14

张彦峰ZYF的博客哈希表相关知识及编程练习总结：背景知识+应用举例（Spring框架或其他框架中的应用举例+实际开发中的应用举例）+相关编程练习（无重复字符的最长子串+有效的数独+最小覆盖子串+字母异位词分组+有效的字母异位词+找到...
直击高频编程考点：栈知识及经典算法题总结
2022-10-27 17:31

张彦峰ZYF的博客栈与队列知识及编程练习总结：背景知识+栈的应用+相关编程练习（有效的括号+最小栈+每日温度+用栈实现队列+用队列实现栈+接雨水+逆波兰表达式求值+基本计算器+简化路径+岛屿数量+用数组实现一个栈+基本数学运算...
《英雄编程体验课》第 14 课 | 题海战术
2021-10-07 08:06

英雄哪里出来的博客该数列由 0 0 0 和 1 1 1 开始，后面的每一项数字都是前面两项数字的和。也就是： F ( 0 ) = 0 ， F ( 1 ) = 1 F ( n ) = F ( n − 1 ) + F ( n − 2 ) , ( 1 ≤ 30 ) F(0) = 0，F(1) = 1 \\ F(n) = F(n - 1) + F(n ...
Python 语法及入门（超全超详细）专为Python零基础一篇博客让你完全掌握Python语法
2023-04-15 19:26

dream_ready的博客 Python 语法及入门（超全超详细）专为Python零基础一篇博客让你完全掌握Python语法
NCT青少年编程能力等级测试Python编程三级-模拟卷1（含答案）
2022-05-10 16:07

青少儿编程课堂的博客参考答案在文章后边部分，请看到后半部分的答案分割线，非常感谢哦！试题NCT-Python编程三级-模拟卷2(含答案练习一、选择题 1．下面（）是Python合法的变量名 A．int32 B．40XL C．self D．name 2．在...
CCF编程能力等级认证GESP—C++1级—20240907
2024-09-08 19:45

青岛少儿编程-王老师的博客 CCF编程能力等级认证GESP—C++1级—20240907
计算机组成原理：最详细笔记
2021-01-21 14:26

杰之行的博客参考：《王道计算机组成原理》学习笔记总目录+思维导图 2019 王道考研计算机组成原理第一章计算机系统概述 1.1 计算机发展历程 1.1.1 计算机硬件的发展计算机系统=硬件+软件计算机硬件的发展：第一代计算机...
面渣逆袭：Java并发六十问，快来看看你会多少道
2022-01-13 11:18

三分恶的博客四万字、五十图，图文详解六十道Java并发面试题！——Java并发面试，看这一篇就够了！
《汇编语言编程基础基于 LoongArch 》读书与实践笔记
2023-02-10 23:35

loongsoner的博客好记性不如烂笔头，在此记录与分享一下《汇编语言编程基础基于 LoongArch 》读书与实践笔记。如文中出现错误，欢迎在评论区留言讨论，我会尽快修改更新 :-)
十万字数据结构笔记
2021-03-26 11:48

兔老大RabbitMQ的博客执行频度=算法中每一条语句执行次数的和一般认定每条语句执行一次所需时间为单位时间（常数时间）O(1) 几个小知识和小问题： 1）循环执行次数n+1次，不是n次。第一次执行i=1和判断i以后执行n次判断和i++。所以该...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月27日

码龄粉丝数原力等级 --

如何快速统计出一亿行由0和1组成的数字里面的1连续出现几次及标记后出现的次数？

42条回答

码龄粉丝数原力等级 --

任务概述

解决思路

1. C++ 方案

1.1 思路

1.2 C++ 代码示例

1.3 C++ 方案解释

1.4 优化建议

2. Python 方案

2.1 思路

2.2 Python 代码示例

2.3 Python 方案解释

3. 性能考虑与优化

3.1 内存映射（Memory-mapped files）

3.2 多线程或多进程计算

3.3 批量读取和优化文件读取方式

4. 总结

问题事件

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

码龄粉丝数原力等级 --

如何快速统计出一亿行由0和1组成的数字里面的1连续出现几次及标记后出现的次数？

42条回答

任务概述

解决思路

1. C++ 方案

1.1 思路

1.2 C++ 代码示例

1.3 C++ 方案解释

1.4 优化建议

2. Python 方案

2.1 思路

2.2 Python 代码示例

2.3 Python 方案解释

3. 性能考虑与优化

3.1 内存映射（Memory-mapped files）

3.2 多线程 或 多进程 计算

3.3 批量读取 和 优化文件读取方式

4. 总结

问题事件

3.2 多线程或多进程计算

3.3 批量读取和优化文件读取方式